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当下 大 数据 技术 发 展 变化 日 新 月 异 ， 大 数据 应 用 已 经 遍及 工业 和 社会 生活 的 方方面面 ， 原 有 的 数据 管理 理论 体系 与 大 数据 产 
业 应 用 之 间 的 差距 日 益 加 大 ， 而 工业 界 对 于 大 数据 人 才 的 需求 却 急剧 增加 。 大 数据 专业 人 才 的 培养 是 新 一 轮 科技 较量 的 基础 ， 高 
等 院 校 承担 着 大 数据 人 才 培 养 的 重任 。 因 此 大 数据 相关 课程 将 逐渐 成 为 国内 高 校 计算 机 相关 专业 的 重要 课程 。 但 纵 观 大 数据 人 才 
培养 课程 体系 尚 不 尽 如 人 意 ， 多 是 已 有 课程 的 “ 冷 拼 盘 ”， 顶 多 是 加 点 “调料 ”， 原 材料 没有 新 鲜 感 。 现 阶段 无 论 多 么 新 多 么 好 
的 人 才 培 养 计划 ， 都 只 能 在 20 世 纪 六 七 十 年 代 编写 的 计算 机 知识 体系 上 施 教 ， 无 法 把 当下 大 数据 带 给 我 们 的 新 思维 、 新 知识 传 


导 给 学 生 。 


为 此 我 们 意识 到 ， 缺 少 基础 性 工作 和 原始 积累 ， 就 难以 培养 符合 工业 界 需要 的 大 数据 复合 型 和 交叉 型 人 才 。 因 此 急需 在 思维 
和 理念 方面 进行 转变 ， 为 现 有 的 课程 和 知识 体系 按 大 数据 应 用 需求 进行 延展 和 补充 ， 加 入 新 的 可 以 因材施教 的 知识 模块 。 我 们 户 
负 着 大 数据 时 代 知 识 更 新 的 使 命 ， 每 一 位 学 者 都 有 责任 和 义务 去 为 此 “ 增 砖 添 瓦 ”。 


在 此 背景 下 ， 我 们 策划 和 组 织 了 这 套 大 数据 管理 丛书 ， 希 望 能 够 培养 数据 思维 的 理念 ， 对 原 有 数据 管理 知识 体系 进行 完善 和 
补充 ， 面 向 新 的 技术 热点 ， 提 出 新 的 知识 体系 /知识 点 ， 拉 近 教 材 体系 与 大 数据 应 用 的 距离 ， 为 受 教 者 应 对 现代 技术 带 来 的 大 数 
据 领域 的 新 问题 和 挑战 ， 扫 除 障碍 。 我 们 相信 ， 假 以 时 日 ， 这 些 著作 汇 溪 成 河 ， 必 将 对 未 来 大 数据 人 才 培 养 起 到 “基石 ”的 作 
用 。 


丛书 定位 : 面向 新 形势 下 的 大 数据 技术 发 展 对 人 才 培 养 提 出 的 挑战 ， 旨 在 为 学 术 研 究 和 人 才 培 养 提供 可 供 参 考 的 “基石 ”。 
虽然 是 一 些 不 起 眼 的 “砖头 瓦 块 ”， 但 可 以 为 大 数据 人 才 培 养 积 累 可 用 的 新 模块 (新 素材 ) ， 弥 补 原 有 知识 体系 与 应 用 问题 之 前 
的 鸿沟 ， 力 图 为 现 有 的 数据 管理 知识 查 漏 补缺 ， 聚 少 成 多 ， 最 终 形成 适应 大 数据 技术 发 展 和 人 才 培 养 的 知识 体系 和 教材 基础 。 


丛书 特点 : 丛书 借鉴 Morgan&Claypool Publishers 出 版 的 Synthesis Lectures on Data Management， 特 色 在 于 选 题 新 
颖 ， 短 小 精湛 。 选 题 新 络 即 面向 技术 热点 ， 弥 补 现 有 知识 体系 的 漏洞 和 不 足 (或 延伸 或 补充 ) ， 内 容 涵 盖 大 数据 管理 的 理论 、 方 
法 、 技 术 等 诸多 方面 。 短 小 精湛 则 不 求 系统 性 和 完备 性 ， 但 每 本 书 要 自 成 知识 体系 ， 重 在 阐述 基本 问题 和 方法 ， 并 辅 以 例题 说 
明 ， 便 于 施 教 。 


丛书 组 织 : 丛书 采用 国际 学 术 出 版 通行 的 主编 负责 制 ， 为 此 特 邀 中 国人 民 大 学 孟 小 峰 教 授 (email: 
xfmeng@ruc.edu.cn) 担任 丛书 主编 ， 负 责 丛书 的 整体 规划 和 选 题 。 责 任 编辑 为 机 械 工 业 出 版 社 华章 分 社 姚 鞋 编辑 (email: 


yaolei@hzbook.com) 。 


当今 数据 洪流 席卷 全 球 ， 而 中 国正 在 努力 从 数据 大 国 走向 数据 强国 ， 大 数据 时 代 的 知识 更 新 和 人 才 培养 刻不容缓 ， 昌 然 我 们 
的 力量 有 限 ， 但 聚 少 成 多 ， 积 小 致 巨 。 因 此 ， 我 们 在 设计 本 套 丛书 封面 的 时 候 ， 特 意 选 择 了 清 代 苏州 籍 宫廷 画家 徐 扬 描绘 苏州 风 
物 的 巨 幅 长 卷 画 作 《 姑 苏 繁 华图 》 (原名 《盛世 滋生 图 》) 作为 底 图 以 表达 我 们 的 美好 愿景 ， 每 本 书 选 取 这 幅 巨 卷 的 一 部 分 ， 一 
步 步 见证 和 记录 数据 管理 领域 的 学 者 在 学 术 研究 和 工程 应 用 中 的 探索 和 实践 ， 最 终 形成 适应 大 数据 技术 发 展 和 人才 培养 的 知识 图 
谱 ， 共 


谱 ， 共 同 谱写 出 我 们 这 个 大 数据 时 代 的 盛世 华章 。 


在 此 期 望 有 志 于 大 数据 人 才 培 养 并 具有 丰富 理论 和 实践 经 验 的 学 者 和 专业 人 员 能 够 加 入 到 这 套 书 的 编写 工作 中 来 ， 共 同 为 中 
国 大 数据 研究 和 人 才 培 养 贡献 自己 的 智慧 和 力量 ， 共 筑 属于 我 们 自己 的 “时 代 记 忆 ”。 欢 迎 读 者 对 我 们 的 出 版 工作 提出 宝贵 意见 
和 建议 。 
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陈寅恪 先生 说 : “一 时 代 之 学 术 ， 必 有 其 新 材料 与 新 问题 。 取 用 此 材料 ， 以 研 求 问题 ， 则 为 此 时 代 学 术 之 新 潮流 。 治 学 之 
士 ， 得 预 于 此 潮流 者 ， 谓 之 预 流 (借用 佛教 初 果 之 名 ) 。 其 未 得 预 者 ， 谓 之 未 入 流 。” 对 今天 的 信息 技术 而 言 ，“ 新 材料 ” 即 为 
大 数据 ， 而 “新 问题 ” 则 是 产生 于 “新 材料 ”之 上 的 新 的 应 用 需求 。 


对 数据 库 领 域 而 言 ， 真 正 的 “ 预 流 ” 是 Jim Gray 和 Michael Stone-braker 等 大 师 们 。 十 三 年 前 面 对 “ 数 据 库 领 域 还 能 再 活 
跃 30 年 吗 ” 这 一 问题 ，jim Gray 给 出 的 回答 是 : “不 可 能 。 在 数据 库 领 域 里 ， 我 们 已 经 非常 狭隘 。” 但 他 转 而 回答 
到 : “SIGMOD 这 个 词 中 的 MOD 表 示 “数据 管理 ”。 对 我 来 说 ， 数 据 管理 包含 很 多 工作 ， 如 收集 数据 、 人 存储 数据 、 组 织 数据 、 
分 析 数 据 和 表示 数据 ， 特 别 是 数据 表示 部 分 。 针 对 数据 查询 已 经 做 了 相当 多 的 工作 ， 但 这 些 工 作 仅仅 围绕 查询 画 了 个 “ 艾 普 西 龙 
球面 ”， 而 没有 真正 超越 它 。 所 以 ， 如 果 我 们 还 像 以 前 一 样 把 研究 与 现实 脱离 开 来 ， 还 继续 保持 狭隘 的 眼光 审视 自己 所 做 的 研 
究 ， 数 据 库 领 域 将 要 消失 ， 因 为 那些 研究 越 来 越 偏离 实际 。 现 在 人 们 已 经 拥有 太 多 数据 ， 而 我 对 许多 人 说 我 们 仅 仪 希望 拥有 更 多 
的 时 间 。 所 以 ， 整 个 数据 收集 、 数 据 分 析 和 数据 简单 化 的 工作 就 是 能 准确 地 给 予 人 们 所 要 的 数据 ， 而 不 是 把 所 有 的 数据 都 提供 给 
他 们 。 这 个 问题 不 会 消失 ， 而 是 会 变 得 越 来 越 重 要 。 如 果 你 用 一 种 大 而 广 的 眼光 看 ， 数 据 库 是 一 个 鞍 勃 发 展 的 领域 ; 如 果 采 用 审 
视 的 眼光 看 ， 现 在 做 的 很 多 研究 对 30 年 后 的 人 们 不 会 产生 任何 影响 ” ( 见 《 数 据 库 大 师 访谈 录 》) 。 


最 近 人 们 提出 了 “数据 湖 ”， 以 区 别传 统 的 “数据 库 ” 技 术 。 两 者 的 差别 到 底 何在 呢 ” 偶 读 了 费 孝 通 先生 所 著 的 《乡土 中 
国 》 后 ， 笔 者 略 有 所 悟 。 费 老 分 析 总 结 了 中 国 乡土 社会 结构 ， 指 出 中 国 社会 呈现 出 所 谓 的 “ 差 序 格 局 ”， 而 西方 社会 呈现 的 
是 “团体 格局 ”。 传 统 数据 库 结 构 天 系 单一 ， 呈 现状 态 犹如 “团体 格局 ”， 即 以 单个 实体 为 本 位 ， 实 体 之 间 的 关系 好 比 一 捆 柴 ， 
几 根 成 一 把 ， 几 把 成 一 扎 ， 条 理 清楚 ， 有 共同 的 模式 可 循 。 而 当下 大 数据 来 源 广 泛 ， 关 系 复杂 ， 远 近亲 下 各 不 同 ， 这 种 关系 就 好 
比 “ 差 序 格 局 ”， 以 语义 主题 为 本 位 ， 每 类 实体 都 以 自我 为 中 心 按照 与 其 他 实体 的 语义 天 系 为 主线 结 成 网 络 ， 这 个 网 络 按照 语义 
关系 的 紧密 亲 踊 呈现 “ 差 序 ”状态 ， 就 如 同 湖面 丢 下 的 石子 形成 的 水 波纹 依 中 心 扩 散 开 去 的 样子 。 这 种 状态 随 着 实体 间 关 系 的 变 
化 而 动态 演化 ， 并 且 每 个 网 络 的 大 小 不 同 ， 体 现 的 语义 关系 也 不 同 ， 列 含 的 价值 也 不 同 。 


数据 库 的 “团体 格局 ”本 质 上 是 先 有 模式 后 有 数据 ， 因 此 数据 集成 可 以 采用 中 介 模 式 (GAV 和 LAV) 以 自 顶 向 下 的 方式 实现 
集成 。 数 据 湖 的 “ 差 序 格局 ”是 先 有 数据 后 有 模式 ， 因 此 需要 按照 自 底 向 上 的 方式 以 一 种 大 数据 融合 的 方法 实现 集成 。 大 数据 融 
合 即 建 立 数据 间 、 信 息 间 、 知 识 片段 间 多 维度 、 多 粒度 的 关联 关系 ， 实 现 更 多 层面 的 知识 交互 ， 从 而 聚敛 出 数据 湖 中 一 个 个 维系 
我 们 社会 的 “水 波纹 ” ( 即 语义 关联 的 紧密 程度 ) 。 


本 书 集成 了 大 数据 融合 、 存 储 、 分 析 、 隐 私 和 系统 等 方面 的 工作 ， 其 组 织 结构 如 下 : 第 1 章 描述 大 数据 的 概念 、 演 变 过 程 和 


处 理 模 式 ; 第 2 章 提出 大 数据 融合 的 概念 ， 分 析 大 数据 融合 的 独特 性 和 任务 ， 给 出 大 数据 融合 的 方法 论 ; 第 3 章 介绍 大 数据 存储 
与 管理 方法 ， 第 4 章 描 述 大 数据 分 析 技 术 ， 包 括 实时 分 析 、 交 互 分 析 、 智 能 分 析 等 ; 第 5 章 讲述 大 数据 涉及 的 隐私 问题 ， 主 要 介 
绍 不 同 领域 中 的 隐私 保护 问题 及 其 隐私 保护 技术 ; 第 6 章 介绍 大 数据 管理 系统 ， 并 分 析 其 体系 结构 ;第 7 章 是 基于 大 数据 的 交叉 
学 科研 究 ， 介 绍 在 线 用 户 行为 演化 的 相关 研究 。 





本 书 中 涉及 的 研究 工作 得 到 众多 科研 项 目的 支持 ， 其 中 包括 : 国家 自然 基金 重点 项 目 一 一 “大 规模 关联 数据 管理 的 关键 技 
术 研 究 。 (编号 : 61532010) ; 国家 自然 基金 重点 项 目 一 一 “面向 大 数据 内 存 计算 的 计算 机 体系 结构 ” (编号 : 
61532016) ; 国家 重点 研发 项 目 一 一 “科学 大 数据 管理 系统 ” (编号 : 2016YFB1000600) ; 中 国人 民 大 学 重点 科学 研究 基金 
重大 基础 研究 项 目 一 一 “社会 计算 若干 关键 问题 研究 。 (编号 : 11XNL010) ; 高 等 学 校 博士 学 科 点 专项 科研 基金 优先 领域 课题 
一 一 “ 云 计算 环境 下 的 在 线 聚 集 技术 研究 ” (编号 : 20130004130001) ; 国家 自然 基金 重大 研究 计划 重点 项 目 一 一 “大 数据 
开放 与 治理 中 的 隐私 保护 关键 技术 研究 。 (编号 : 91646203) 。 


本 书架 构 的 安排 以 及 统 稿 、 审 校 工作 由 和 孟 小 峰 组 织 完成 ， 这 里 要 特别 感谢 王 春 邮 、 杜 治 娟 、 郭 崎 、 杨 晨 、 王 硕 、 叶 青青 和 李 
勇 ， 在 本 书 的 编写 过 程 中 他 们 给 予 了 极 大 的 帮助 。 


本 书 涉 及 面 广 ， 内 容 丰 富 ， 术 语 量 大 ， 如 果 在 阅读 过 程 中 发 现 有 不 当 之 处 ， 朋 请 读者 批评 指正 ;如 果 有 任何 建议 或 意见 ， 欢 
迎 发 邮件 与 作者 (xfmeng@ruc.edu.cn) 联系 。 
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已 故 的 图 灵 奖 得 主 jim Gray 在 其 《事务 处 理 》 一 书 中 提 到 : 6000 年 以 前 ， 苏 美 尔 人 (Sumerians) 就 使 用 了 数据 记录 的 方 
法 ， 已 知 最 早 的 数据 是 写 在 土 块 上 ， 上 面 记录 着 皇家 税收 、 土 地 、 人 谷物、 牲畜 、 奴 隶 和 黄金 等 情况 。 随 着 社会 的 进步 和 生产 力 的 
是 高 ， 类 似 土 块 的 处 理 系统 演 变 了 数 干 年 ， 经 历 了 眉 起 甲骨文、 古 埃 及 纸 莎 草 纸 、 羊 皮 纸 等 。19 世 纪 后 期 打 孔 卡片 出 现 ， 用 于 
1890 年 美国 人 口 普查 ， 用 卡片 取代 土 块 ， 使 得 系统 可 以 每 秒 查找 或 更 新 一 个 “ 土 块 。 (卡片 ) 。 可 见 ， 用 数据 记录 社会 由 来 已 
久 ， 而 数据 的 多 少 和 系统 的 能 力 是 与 当时 社会 结构 的 复杂 程度 和 生产 力 水 平 密切 相关 的 。 


随 着 人 类 进入 21 世 纪 ， 尤 其 是 互联 网 和 移动 互联 网 技术 的 发 展 ， 使 得 人 与 人 之 间 的 联系 日 益 密切 ， 社 会 结构 日 趋 复 杂 ， 生 
产 力 水 平 得 到 极 大 提升 ， 人 类 创造 性 活力 得 到 充分 释放 ， 与 之 相应 的 数据 规模 和 处 理 系统 发 生 了 巨大 改变 ， 从 而 催生 了 当下 众人 
热 议 的 大 数据 局 面 。 


从 历史 观 的 角度 看 ， 数 据 (D) 和 社会 (S) 形成 了 一 定 的 对 应 关系 ， 即 : D1~f (Ssumerians) ，…，Dbig~f (Spresent) ， 
.，Dn~f (Sfuture) 。 从 量 的 关系 上 ，D1，…，Dbig，…，Dn 可 能 存在 大 小 关系 ， 还 可 形成 包含 关系 ， 但 它们 只 是 与 当时 的 社 
会 发 展 状况 相对 应 : Dbig 不 可 能 反映 代表 未 来 的 Dn， 因 为 我 们 不 知道 未 来 会 有 什么 新 的 社会 结构 (诸如 当下 社交 网 络 一 类 的 事 
物 ) 出 现 ， 也 不 知道 会 有 什么 新 的 生产 活动 〈 诸 如 电 商 一 类 的 事物 ) 产生 ; 同样 D1 也 不 需要 具有 Dbig 的 规模 ， 因 为 当时 人 们 并 
没有 如 此 频繁 的 联系 。 近 期 ， 美 国 加 州 大 学 伯克利 分 校 Michael |Jordan 教 授 提出 “大 数据 的 冬天 即将 到 来 ”， 如 果 我 们 能 历史 
地 认识 Dbig 的 地 位 ， 没 有 把 Dbig 当 Dn， 就 不 人 存在 “冬天 ”与 “春天 ”的 问题 。 这 是 历史 客观 发 展 的 事实 。 


基于 以 上 分 析 ， 当 下 大 数据 的 产生 主要 与 人 类 社会 生活 网 络 结构 的 复杂 化 、 生 产 活动 的 数字 化 、 科 学 研究 的 信息 化 相关 ， 其 
意义 和 价值 在 于 可 帮助 人 们 解释 复杂 的 社会 行为 和 结构 ， 以 及 提高 生产 力 ， 进 而 丰富 人 们 发 现 自然 规律 的 手段 。 本 质 上 ， 大 数据 
具有 以 下 三 方面 的 内 涵 ， 即 大 数据 的 “深度 ”、 大 数据 的 “广度 ”以 及 大 数据 的 “密度 ”。 所 谓 “ 深 度 ” 是 指 单一 领域 数据 汇聚 
的 规模 ， 可 以 进一步 理解 为 数据 内 容 的 “维度 ”; “广度 ” 则 是 指 多 领域 数据 汇聚 的 规模 ， 侧 重 体现 在 数据 的 关联 、 交 又 和 融合 
等 方面 ; “密度 ”是 指 时 空 维 上 数据 汇聚 的 规模 ， 即 数据 积累 的 “厚度 ”以 及 数据 产生 的 “速度 ”。 


面 对 不 断 涌现 的 大 数据 应 用 ， 数 据 库 乃至 数据 管理 技术 面临 新 的 挑战 。 传 统 的 数据 库 技术 侧重 考虑 数据 的 “深度 ”问题 ， 主 
要 解决 数据 的 组 织 、 人 存储 、 查 询 和 简单 分 析 等 问题 。 其 后 ， 数 据 管理 技术 在 一 定 程度 上 考虑 了 数据 的 “广度 ”和 “密度 ”问题 ， 
主要 解决 数据 的 集成 、 流 处 理 、 图 结构 等 问题 。 这 里 提出 的 大 数据 管理 是 要 综合 考虑 数据 的 “广度 ”“ 深 度 ” “密度 ”等 问题 ， 
主要 解决 数据 的 获取 、 抽 取 、 集 成 、 复 杂 分 析 、 解 释 等 技术 难点 。 因 此 ， 与 传统 数据 管理 技术 相 比 ， 大 数据 管理 技术 难度 更 高 ， 
处 理 数 据 的 “战线 ”更 长 。 


1.1 大 数据 的 基本 概念 


已 故 的 图 灵 奖 得 主 jim Gray 在 其 《事务 处 理 》 一 书 中 提 到 : 6000 年 以 前 ， 苏 美 尔 人 (Sumerians) 就 使 用 了 数据 记录 的 方 
法 ， 已 知 最 早 的 数据 是 写 在 土 块 上 ， 上 面 记录 着 皇家 税收 、 土 地 、 人 谷物、 牲畜 、 奴 隶 和 黄金 等 情况 。 随 着 社会 的 进步 和 生产 力 的 
提高 ， 类 似 土 块 的 处 理 系统 演变 了 数 干 年 ， 经 历 了 用 越 甲 骨 文 、 古 埃及 纸 沙 草 纸 、 羊 皮 纸 等 。19 世 纪 后 期 打 孔 卡片 出 现 ， 用 于 
1890 年 美国 人 口 普查 ， 用 卡片 取代 土 块 ， 使 得 系统 可 以 每 秒 查找 或 更 新 一 个 “ 土 块 。 (卡片 ) 。 可 见 ， 用 数据 记录 社会 由 来 已 
久 ， 而 数据 的 多 少 和 系统 的 能 力 是 与 当时 社会 结构 的 复杂 程度 和 生产 力 水 平 密切 相关 的 。 


随 着 人 类 进入 21 世 纪 ， 尤 其 是 互联 网 和 移动 互联 网 技术 的 发 展 ， 使 得 人 与 人 之 间 的 联系 日 益 密切 ， 社 会 结构 日 趋 复杂 ， 生 
产 力 水 平 得 到 极 大 提升 ， 人 类 创造 性 活力 得 到 充分 释放 ， 与 之 相应 的 数据 规模 和 处 理 系统 发 生 了 巨大 改变 ， 从 而 催生 了 当下 众人 
热 议 的 大 数据 局 面 。 


从 历史 观 的 角度 看 ， 数 据 (D) 和 社会 (S) 形成 了 一 定 的 对 应 关系 ， 即 : D1~f (Ssumerians) ，…，Dbig~f (Spresent) ， 
.，Dn~f (Sfuture) 。 从 量 的 天 系 上 ，D1，…，Dbig，…，Dn 可 能 存在 大 小 关系 ， 还 可 形成 包含 关系 ， 但 它们 只 是 与 当时 的 社 
会 发 展 状况 相对 应 : Dbig 不 可 能 反映 代表 未 来 的 Dn， 因 为 我 们 不 知道 未 来 会 有 什么 新 的 社会 结构 (诸如 当下 社交 网 络 一 类 的 事 
物 ) 出 现 ， 也 不 知道 会 有 什么 新 的 生产 活动 〈 诸 如 电 商 一 类 的 事物 ) 产生 ; 同样 D1 也 不 需要 具有 Dbig 的 规模 ， 因 为 当时 人 们 并 
没有 如 此 频繁 的 联系 。 近 期 ， 美 国 加 州 大 学 伯克利 分 校 Michael 1.Jordan 教 授 提出 “大 数据 的 冬天 即将 到 来 ”， 如 果 我 们 能 历史 
地 认识 Dbig 的 地 位 ， 没 有 把 Dbig 当 Dn， 就 不 存在 “冬天 ”与 “春天 ”的 问题 。 这 是 历史 客观 发 展 的 事实 。 


基于 以 上 分 析 ， 当 下 大 数据 的 产生 主要 与 人 类 社会 生活 网 络 结构 的 复杂 化 、 生 产 活动 的 数字 化 、 科 学 研究 的 信息 化 相关 ， 其 
意义 和 价值 在 于 可 帮助 人 们 解释 复杂 的 社会 行为 和 结构 ， 以 及 提高 生产 力 ， 进 而 丰富 人 们 发 现 自然 规律 的 手段 。 本 质 上 ， 大 数据 
具有 以 下 三 方面 的 内 涵 ， 即 大 数据 的 “深度 ”、 大 数据 的 “广度 ”以 及 大 数据 的 “密度 ”。 所 谓 “ 深 度 ” 是 指 单一 领域 数据 汇聚 
的 规模 ， 可 以 进一步 理解 为 数据 内 容 的 “维度 ”; “广度 ” 则 是 指 多 领域 数据 汇聚 的 规模 ， 侧 重 体现 在 数据 的 关联 、 交 又 和 融合 
等 方面 ; “密度 ”是 指 时 空 维 上 数据 汇聚 的 规模 ， 即 数据 积累 的 “厚度 ”以 及 数据 产生 的 “速度 ”。 


面 对 不 断 涌现 的 大 数据 应 用 ， 数 据 库 乃至 数据 管理 技术 面临 新 的 挑战 。 传 统 的 数据 库 技术 侧重 考虑 数据 的 “深度 ”问题 ， 主 
要 解决 数据 的 组 织 、 人 存储 、 查 询 和 简单 分 析 等 问题 。 其 后 ， 数 据 管理 技术 在 一 定 程度 上 考虑 了 数据 的 “广度 ”和 “密度 ”问题 ， 
主要 解决 数据 的 集成 、 流 处 理 、 图 结构 等 问题 。 这 里 提出 的 大 数据 管理 是 要 综合 考虑 数据 的 “广度 ”“ 深 度 ” “密度 ”等 问题 ， 
主要 解决 数据 的 获取 、 抽 取 、 集 成 、 复 杂 分 析 、 解 释 等 技术 难点 。 因 此 ， 与 传统 数据 管理 技术 相 比 ， 大 数据 管理 技术 难度 更 高 ， 
处 理 数 据 的 “战线 ”更 长 。 


1.2 大 数据 的 演变 过 程 


从 数据 库 (Database，DB) 到 大 数据 (Big Data，BD) ， 看 似 只 是 一 个 简单 的 技术 演进 ， 但 细 细 考究 不 难 发 现 两 者 有 着 
本 质 上 的 差别 。 大 数据 的 出 现 必 将 颠覆 传统 的 数据 管理 方式 ， 在 数据 来 源 、 数 据 处 理 方式 和 数据 思维 等 方面 都 会 带 来 革命 性 变 
化 。 


如 果 要 用 简单 的 方式 来 比较 传统 的 数据 库 和 大 数据 的 区 别 的 话 ， 我 们 认为 “池塘 捕 鱼 ”和 “大 海 捕 鱼 ”是 一 个 很 好 的 类 比 。 
“池塘 捕 鱼 ”代表 着 传统 数据 库 时 代 的 数据 管理 方式 ， 而 “大 海 捕 鱼 ” 则 对 应 着 大 数据 时 代 的 数据 管理 方式 ，“ 鱼 ”是 待 处 理 的 
数据 。“ 捕 鱼 ” 环 境 条 件 的 变化 导致 了 “ 捕 鱼 ”方式 的 根本 性 差异 。 这 些 差异 主要 体现 在 如 下 几 个 方面 : 


1) 数据 规模 : “池塘 ”和 “大 海 ” 最 明显 的 区 别 就 是 规模 。 “池塘 ”规模 相对 较 小 ， 即 便 是 先前 认为 比较 大 的 “池塘 ”， 
譬如 VLDB (Very Large DataBase) ， 与 “大 海 ”XLDB (Extremely Large DataBase) 相 比 仍旧 偏 小 。“ 池 塘 ” 的 处 理 对 象 
通常 以 MB 为 基本 单位 ， 而 “大 海 ” 则 常常 以 GB 甚 至 是 TB、PB 为 基本 处 理 单 位 。 


2) 数据 类 型 : 过 去 的 “池塘 ”中 ， 数 据 的 种 类 单一 ， 往 往 仅仅 有 一 种 或 少数 几 种 ， 这 些 数据 又 以 结构 化 数据 为 主 。 而 
在 “大 海 ” 中 ， 数 据 的 种 类 繁多 ， 数 以 干 计 ， 而 这 些 数据 又 包含 着 结构 化 、 半 结构 化 以 及 非 结 构 化 的 数据 ， 并 且 半 结构 化 和 非 结 
构 化 数据 所 占 份 额 越 来 越 大 。 


3) 模式 (schema) 和 数据 的 天 系 : 传统 的 数据 库 都 是 先 有 模式 ， 然 后 才 会 产生 数据 。 这 就 好 比 是 先 选 好 合适 的 “ 池 
塘 ”， 然 后 才 会 向 其 中 投放 适合 在 该 “池塘 ”环境 生长 的 “ 鱼 ”。 而 大 数据 时 代 在 很 多 情况 下 难以 预先 确定 模式 ， 模 式 只 有 在 数 
据 出 现 之 后 才能 确定 ， 且 模式 随 着 数据 量 的 增长 处 于 不 断 的 演变 之 中 。 这 就 好 比 先 有 少量 的 鱼 类 ， 随 着 时 间 推 移 ， 鱼 的 种 类 和 数 
量 都 在 不 断 地 增长 。 鱼 的 变化 会 使 大 海 的 成 分 和 环境 处 于 不 断 的 变化 之 中 。 


4) 处 理 对 象 : 在 “池塘 ”中 捕 鱼 ，“ 鱼 ” 仪 仪 是 其 捕捞 对 象 。 而 在 “大 海 ”中 ，“ 鱼 ”除了 是 捕捞 对 象 之 外 ， 还 可 以 通过 
某 些 “ 鱼 ”的 存在 来 判断 其 他 种 类 的 “ 鱼 ” 是 否 存在 。 也 就 是 说 传统 数据 库 中 数据 仅 作 为 处 理 对 象 ， 而 在 大 数据 时 代 ， 要 将 数据 
作为 一 种 资源 来 辅助 解决 其 他 诸多 领域 的 问题 。 


5) 处 理工 具 : 捕捞 “池塘 ”中 的 “ 鱼 ”， 一 种 渔网 或 少数 几 种 基本 就 可 以 应 对 ， 也 就 是 所 谓 的 “One Size Fits All”。 但 
是 在 “大 海 ” 中 ， 不 存在 一 种 渔网 能 够 捕获 所 有 鱼 类 的 情况 ， 也 就 是 所 谓 的 “No Size Fits All”。 


从 “池塘 ”到 “大 海 ”， 不 仅仅 是 规模 的 变 大 。 传 统 的 数据 库 代表 着 数据 工程 (data engineering) 的 处 理 方式 ， 大 数据 
时 代 的 数据 已 不 仅仅 是 工程 处 理 的 对 象 ， 需 要 采取 新 的 数据 思维 来 应 对 。 图 灵 奖 获 得 者 、 著 名 数据 库 专家 jim Gray 博士 观察 并 
总 结 指出 ， 人 类 自古 以 来 ， 在 科学 研究 上 先后 历经 了 实验 、 理 论 和 计算 三 种 范式 。 当 数据 量 不 断 增长 和 累积 到 今天 ， 这 三 种 传统 
范式 在 科学 研究 ， 特 别 是 一 些 新 的 研究 领域 已 经 无 法 很 好 地 发 挥 作用 ， 需 要 有 一 种 全 新 的 范式 .来 指导 新 形势 下 的 科学 研究 。 基 于 
这 种 考虑 ，jJim Gray 提 出 了 一 种 新 的 数据 探索 型 研究 方式 ， 他 称 之 为 科学 研究 的 “第 四 种 范式 ” (The Fourth 
Paradigm) [1 


四 种 范式 的 比较 如 表 1-1 所 示 。 第 四 种 范式 的 实质 就 是 从 以 计算 为 中 心 ， 转 变 到 以 数据 处 理 为 中 心 ， 也 就 是 我 们 所 说 的 数据 
思维 。 这 种 方式 需要 我 们 从 根本 上 转变 思维 。 正 如 前 面 提 到 的 捕 鱼 方式 的 转变 ， 在 大 数据 时 代 ， 数 据 不 再 仅仅 是 捕捞 的 对 象 ， 而 
应 当 转 变 成 一 种 基础 资源 ， 来 协同 解决 其 他 诸多 领域 的 问题 。 例 如 ， 计 算 社会 科学 (computational social science) 基于 特定 
社会 需求 ， 在 特定 的 社会 理论 指导 下 ， 收 集 、 整 理 和 分 析 数 据 足 迹 (data print) ， 以 便 进行 社会 解释 、 监 控 、 预 测 与 规划 的 过 
程 和 活动 。 计 算 社会 科学 是 一 种 典型 的 需要 采用 第 四 种 范式 来 做 指导 的 科学 研究 领域 。Duncan 上 Watts 在 《Nature》 杂 志 上 的 
文章 “A twenty-first century science” 也 指出 借助 于 社交 网 络 和 计算 机 分 析 技 术 ，21 世 纪 的 社会 科学 有 可 能 实现 定量 化 的 研 
究 ， 从 而 成 为 一 门 真正 的 自然 科学 。 


表 1-1 科学 研究 上 发 现 的 四 种 范式 


科学 范式 主要 方法 
实验 通过 观察 来 描述 自然 现象 
理论 建立 模型 、 概 论 
计算 对 复杂 现象 利用 计算 机 进行 仿真 模拟 
数据 探索 仪器 或 仿 丰 器 产生 数据 ， 计算 机 软件 将 这 些 数据 进 行 处 
(data exploration ) 理 而 后 存储 | 个 同 地 方 ， 取 后 要 将 这 些 数据 高 效 地 汇集 、 
整理 、 统 计 、 分 析 、 共 享 和 归档 ， 并 加 以 再 利用 





[1] Kristin M Tolle, D Stewatt W, Tansley, et al. The Fourth Paradigm: Data-intensive Scientific Discovery [C] . Proceedings of the 
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1.3 ”大 数据 应 用 


人 类 历史 上 从 未 有 哪个 时 代 同 今天 一 样 产 生 如 此 海量 的 数据 。 数 据 的 产生 已 经 完全 不 受 时 间 、 地 点 的 限制 。 从 采用 数据 库 作 


为 数据 管理 的 主要 方式 开始 ， 人 类 社会 的 数据 产生 方式 大 致 经 历 了 3 个 阶段 ， 而 正 是 数据 产生 方式 的 巨大 变化 才 最 终 导 致 大 数据 
的 产生 。 


1) 运营 式 系统 阶段 : 数据 库 的 出 现 使 得 数据 管理 的 复杂 度 大 大 降低 ， 实 际 中 数据 库 大 都 为 运营 系统 所 采用 ， 作 为 运营 系统 
的 数据 管理 子 系统 。 比 如 超市 的 销售 记录 系统 、 银 行 的 交易 记录 系统 、 医 院 病人 的 医疗 记录 系统 等 。 人 类 社会 数据 量 第 一 次 大 的 
飞跃 正 是 从 运营 式 系 统 广泛 使 用 数据 库 开始 的 。 这 个 阶段 最 主要 的 特点 是 数据 往往 伴随 着 一 定 的 运营 活动 而 产生 并 记录 在 数据 库 
中 ， 比 如 超市 每 销售 一 件 商品 就 会 在 数据 库 中 产生 一 条 相应 的 销售 记录 。 这 种 数据 的 产生 方式 是 被 动 的 。 


2) 互联 网 系统 阶段 : 互联 网 的 诞生 促使 人 类 社会 数据 量 出 现 第 二 次 大 的 飞跃 。 但 是 真正 的 数据 爆发 产生 于 Web2.0 时 代 ， 
而 Web2.0 的 最 重要 标志 就 是 用 户 原创 内 容 (User Generated Content，UGC) 。 这 类 数据 近 几 年 一 直 呈 现 爆炸 性 增长 ， 主 要 
有 两 个 方面 的 原因 。 首 先是 以 博客 、 微 博 为 代表 的 新 型 社交 网 络 的 出 现 和 快速 发 展 ， 使 得 用 户 产生 数据 的 意愿 更 加 强烈 。 其 次 就 
是 以 智能 手机 、 平 板 电 脑 为 代表 的 新 型 移动 设备 的 出 现 ， 这 些 易 携带 、 全 天 候 接 入 网 络 的 移动 设备 使 得 人 们 在 网 上 发 表 自 己 意见 
的 途径 更 为 便捷 。 这 种 数据 的 产生 方式 是 主动 的 。 


3) 感知 式 系统 阶段 : 人 类 社会 数据 量 第 三 次 大 的 飞跃 最 终 导 致 了 大 数据 的 产生 ， 今 天 我 们 正 处 于 这 个 阶段 。 这 次 飞跃 的 根 
本 原因 在 于 感知 式 系统 的 广泛 使 用 。 随 着 技术 的 发 展 ， 人 们 已 经 有 能 力 制造 极其 微小 的 带 有 处 理 功 能 的 传感器 ， 并 开始 将 这 些 设 
备 广 泛 地 布置 于 社会 的 各 个 角落 ， 通 过 这 些 设备 来 对 整个 社会 的 运转 进行 监控 。 这 些 设 备 会 源源 不 断 地 产生 新 数据 ， 这 种 数据 的 
产生 方式 是 自动 的 。 


简单 来 说 ， 数 据 产生 经 历 了 被 动 、 主 动 和 自动 三 个 阶段 。 这 些 被 动 、 主 动 和 自动 产生 的 数据 共同 构成 了 大 数据 的 数据 来 源 ， 
但 其 中 自动 式 数据 才 是 大 数据 产生 的 最 根本 原因 。 


正如 谷歌 公司 的 首席 经 济 学 家 Hal Varian 所 说 ， 数 据 是 广泛 可 用 的 ， 所 缺乏 的 是 从 中 提取 出 知识 的 能 力 。 数 据 收集 的 根本 目 
的 是 根据 需求 从 数据 中 提取 有 用 的 知识 ， 并 将 其 应 用 到 具体 的 领域 之 中 。 不 同 领域 的 大 数据 应 用 有 不 同 的 特点 ， 表 1-2 列 举 了 若 
干 具 有 代表 性 的 大 数据 应 用 及 其 特征 。 


表 1-2 典型 大 数据 应 用 的 比较 


应 用 类 型 响应 时 间 数据 规模 | 可 靠 性 要 求 | 数据 精度 


科学 计算 极 高 
金融 数据 高 





孙 动 娄 据 | GPS 数 捕 区 较 高 较 高 


应 用 类 型 
物 联网 传 感 器 网 给 ) 快 交 坟 

Web 数据 新 闻 网 页 等 

多 媒体 数据 | 视频 网 站 





正 是 由 于 大 数据 的 广泛 存在 ， 才 使 得 大 数据 问题 的 解决 极 具 挑战 性 。 而 它 的 广泛 应 用 ， 则 促使 越 来 越 多 的 人 开始 天 注 和 研究 
大 数据 问题 。 


如 图 1-1 所 示 ， 大 数据 应 用 的 三 要 素 包 括 大 数据 (big data) 、 大 知识 (big knowledge) 和 大 应 用 (big application) 。 
“大 数据 ”关联 和 融合 凝聚 成 “大 知识 ”， 促 使 开发 “大 应 用 ”。 





图 1-1 大 数据 应 用 的 三 要 素 


1.4 大 数据 的 处 理 模 式 


无 论 是 工业 界 还 是 学 术 界 ， 都 已 经 广泛 使 用 高 级 集群 编程 模型 来 处 理 日 益 增 长 的 数据 ， 如 MapReduce。 这 些 系统 将 分 布 式 
编程 简化 为 自动 提供 位 置 感知 (locality-aware) 调度 、 容 错 以 及 负载 均衡 ， 使 得 大 量 用 户 能 够 在 商用 集群 上 分 析 庞 大 的 数据 
集 。 


大 多 数 现 有 的 集群 计算 系统 都 是 基于 非 循环 数据 流 模型 (acyclic data flow model) ， 从 稳定 的 物理 存储 (如 分 布 式 文件 
系统 ) 中 加 载 记 录 ， 一 组 确定 性 操作 构成 一 个 有 向 无 环 图 (Directed Acyclic Graph，DAG) ， 记 录 被 传 入 这 个 DAG， 然 后 写 
回 稳定 存储 。 通 过 这 个 DAG 数 据 流 图 ， 运 行 时 自动 完成 调度 工作 及 故障 恢复 。 


尽管 非 循环 数据 流 是 一 种 很 强大 的 抽象 方法 ， 但 有 些 应 用 仍然 无 法 使 用 这 种 方式 描述 ， 包 括 : @ 机 器 学 习 和 图 应 用 中 常用 的 
迭代 算法 (每 一 步 对 数据 执行 相似 的 函数 ) ; 交互 式 数 据 挖 握 工 具 (用 户 反复 查询 一 个 数据 子 集 ) 。 此 外 基于 数据 流 的 架构 也 
不 明确 支持 这 种 处 理 ， 所 以 需要 将 数据 输出 到 磁盘 ， 然 后 在 每 次 查询 时 重新 加 载 ， 从 而 带 来 较 大 的 开销 。 


当前 大 数据 分 析 处 理 系 统 的 发 展 趋势 主要 有 两 个 方向 : 一 种 是 以 Hadoop 和 MapReduce 为 代表 的 批 处 理 (batch 
processing) 系统 ， 另 一 种 是 为 各 种 特定 应 用 开发 的 流 处 理 (stream processing) 系统 ， 批 处 理 是 先 存储 后 处 理 (store- 
then-process) ， 而 流 处 理 则 是 直接 处 理 (straight-through processing) 。 


1.4.1 批 处 理 


















Google 公 司 于 2004 年 提出 的 MapReduce 编 程 模型 是 最 具 代 表 性 的 批 处 理 模式 。 完整 的 MapReduce 过 程 如 图 1-2 所 
示 。 
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图 1-2 MapReduce 执 行 流程 图 
MapReduce 模 型 首先 将 用 户 的 原始 数据 源 进行 分 块 ， 然 后 分 别 交 给 不 同 的 Map 任 务 去 处 理 。Map 任 务 从 输入 中 解析 出 键 / 
值 对 集合 ， 然 后 对 这 些 集合 执行 用 户 自行 定义 的 Map 函 数 得 到 中 间 结 果 ， 并 将 该 结果 写 入 本 地 硬盘 。Reduce 任 务 从 硬盘 上 读 取 


数据 之 后 ， 会 根据 key 值 进行 排序 ， 将 具有 相同 key 值 的 数据 组 织 在 一 起 。 最 后 用 户 自 定义 的 Reduce 函 数 会 作用 于 这 些 排 好 序 的 
结果 并 输出 最 终结 果 


从 MapReduce 的 处 理 过 程 我 们 可 以 看 出 ，MapReduce 的 核心 设计 思想 在 于 : @ 将 问题 分 而 治之 ; @ 把 计算 推 至 数据 而 不 
是 把 数据 推 至 计算 ， 有 效 避 免 数据 传输 过 程 中 产生 的 大 量 通信 开销 。MapReduce 模 型 简单 ， 且 现实 中 很 多 问题 都 可 用 
MapReduce 模 型 来 表示 。 因 此 该 模型 公开 后 立刻 受到 极 大 的 关注 ， 并 在 生物 信息 学 、 文 本 挖掘 等 领域 得 到 广泛 应 用 。 


无 论 是 批 处 理 还 是 流 处 理 ， 都 是 大 数据 处 理 的 可 行 思路 。 大 数据 的 应 用 类 型 很 多 ， 在 实际 的 大 数据 处 理 中 ， 常 常 并 不 是 简单 
地 只 使 用 其 中 的 某 一 种 ， 而 是 将 二 者 结合 起 来 。 互 联网 是 大 数据 最 重要 的 来 源 之 一 ， 很 多 互联 网 公司 根据 处 理 时 间 的 要 求 将 自己 
的 业务 划分 为 在 线 (online) 、 近 线 (nearline) 和 离线 (offline) ， 比 如 著名 的 职业 社交 网 站 Linkedln。 这 种 划分 方式 是 按 处 
理 所 耗 时 间 来 划分 的 。 其 中 在 线 的 处 理 时 间 一 般 为 秒 级 ， 甚 至 是 毫秒 级 ， 因 此 通常 采用 上 面 所 说 的 流 处 理 ; 离线 的 处 理 时 间 可 以 
以 天 为 基本 单位 ， 基 本 采用 批 处 理 方式 ， 这 种 方式 可 以 最 大 限度 地 利用 系统 MO; 近 线 的 处 理 时 间 一 般 为 分 钟 级 或 者 是 小 时 级 ， 
对 处 理 模型 并 没有 特别 的 要 求 ， 可 以 根据 需求 灵活 选择 ， 但 在 实际 中 多 采用 批 处 理 模式 。 


1.4.2 ” 流 处 理 


流 处 理 的 基本 理念 是 数据 的 价值 会 随 着 时 间 的 流逝 而 不 断 减少 ， 因 此 尽 可 能 快 地 对 最 新 的 数据 作出 分 析 并 给 出 结果 是 所 有 流 
数据 处 理 模式 的 共同 目标 。 需 要 采用 流 数 据 处 理 的 大 数据 应 用 场景 主要 有 网 页 点 击 数 的 实时 统计 、 传 感 器 网 络 和 金融 中 的 高 频 交 


易 等 。 


流 处 理 的 处 理 模 式 将 数据 视 为 流 ， 源 源 不 断 的 数据 组 成 了 数据 流 。 当 新 的 数据 到 来 时 就 立刻 处 理 并 返回 所 需 的 结果 。 图 1-3 
是 流 处 理 中 基本 的 数据 流 模型 。 
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图 1-3 基本 的 数据 流 模型 


数据 的 实时 处 理 是 一 个 极 具 挑 战 性 的 工作 ， 数 据 流 本 身 具有 持续 达到 、 速 度 快 且 规模 巨大 等 特点 。 为 了 确保 分 布 式 数 据 流 的 
实时 处 理 ， 需 要 对 数据 流 的 传输 和 模型 进行 说 明 。Q@ 数 据 流传 输 。 为 保证 实时 、 完 整 且 稳 定 地 将 数据 流传 输 到 处 理 系 统 ， 一 般 可 
通过 消息 队列 和 网 络 Socket 传 输 等 方法 完成 ， 以 保证 将 数据 发 送 至 每 个 物理 节点 ， 为 数据 处 理 提供 保障 。 利 用 消息 队列 的 方式 


进行 数据 采集 和 传输 是 较为 常用 的 一 种 方法 ， 常 见 的 消息 队列 产品 有 Facebook 的 Scribe、LinkedIn 的 Kafka 和 Cloudera 的 
Flume 等 。@ 数 据 流 模型 。 在 查询 处 理 过 程 中 ， 由 于 数据 流 的 来 源 不 同 ， 需 要 针对 不 同 的 数据 源 制订 不 同 的 数据 样式 。 一 般 来 
讲 , 通用 的 数据 流 管理 系统 支持 关系 型 数据 模型 ,数据 定 义 语言 是 基于 关系 型 的 原子 类 型 ,便于 以 属性 和 元 组 的 形式 划分 和 发 送 
数据 ;针对 特殊 领域 的 数据 流 管理 系统 ， 可 根据 领域 数据 的 特点 设计 基于 对 象 类 型 的 复合 数据 类 型 。 


1.5 ”大 数据 管理 的 关键 技术 


综 上 所 述 ， 大 数据 时 代 的 数据 存在 如 下 几 个 特点 : 多 源 异 构 、 分 布 广泛 、 动 态 增 长 、 先 有 数据 后 有 模式 。 正 是 这 些 与 传统 数 
据 管 理 过 然 不 同 的 特点 ， 使 得 大 数据 时 代 的 数据 管理 面临 着 新 的 挑战 ， 下 面 会 对 其 中 的 主要 挑战 进行 详细 分 析 。 


1.5.1 ”大 数据 融合 


数据 的 广泛 存在 性 使 得 数据 越 来 越 多 地 散布 于 不 同 的 数据 管理 系统 中 ， 为 了 便于 进行 数据 分 析 ， 需 要 进行 数据 集成 。 数 据 集 
成 看 起 来 并 不 是 一 个 新 的 问题 ， 但 是 大 数据 时 代 的 数据 集成 却 有 新 的 需求 ， 因 此 也 面临 着 新 的 挑战 。 


1) 广泛 的 异 构 性 。 传 统 的 数据 集成 也 会 面 对 数据 异 构 的 问题 ， 但 是 在 大 数据 时 代 这 种 异 构 性 出 现 了 新 的 变化 。 主 要 体现 


在 : @ 数 据 类 型 从 以 结构 化 数据 为 主 转向 结构 化 、 半 结构 化 、 非 结构 化 三 者 的 融合 。@ 数 据 产生 方式 的 多 样 性 带 来 了 数据 源 的 变 
化 。 传 统 的 电子 数据 主要 产生 于 服务 器 或 者 是 个 人 计算 机 ， 这 些 设备 位 置 相对 固定 。 随 着 移动 终端 的 快速 发 展 ， 手 机 、 平 板 电脑 
和 GPS 等 产生 的 数据 量 呈 现 爆 炸 式 增长 ， 且 产生 的 数据 带 有 很 明显 的 时 空 特性 。@ 数 据 存储 方式 发 生变 化 。 传 统 数 据 主要 存储 在 
关系 数据 库 中 ， 但 越 来 越 多 的 数据 迫使 人 们 开始 采用 新 的 数据 存储 方式 来 应 对 数据 爆炸 ， 比 如 存储 在 Hadoop 的 HDFS 中 。 这 就 
必然 要 求 在 集成 的 过 程 中 进行 数据 转换 ， 而 这 种 转换 的 过 程 是 非常 复杂 和 难以 管理 的 。 





2) 数据 质量 。 数 据 量 大 不 一 定 就 代表 信息 量 或 者 数据 价值 的 增 大 ， 相 反 很 多 时 候 意味 着 信息 垃圾 的 泛滥 。 一 方面 很 难 有 单 
个 系统 能 够 容纳 下 从 不 同 数据 源 集成 的 海量 数据 ; 另 一 方面 如 果 在 集成 的 过 程 中 仅 仪 简单 地 将 所 有 数据 聚集 在 一 起 而 不 进行 任何 
数据 清洗 ， 会 使 得 过 多 的 无 用 数据 干扰 后 续 的 数据 分 析 过 程 。 大 数据 时 代 的 数据 清洗 过 程 必须 更 加 谨慎 ， 因 为 相对 细微 的 有 用 信 
息 混杂 在 庞大 的 数据 量 中 。 如 果 信 息 清 洗 的 粒度 过 细 ， 很 容易 将 有 用 的 信息 过 滤 掉 ; 清洗 的 粒度 过 粗 ， 又 无 法 达到 真正 的 清洗 效 
果 ， 因 此 在 质 与 量 之 间 需 要 进行 仔细 的 考量 和 权衡 。 


1.5.2 ”大 数据 分 析 


传统 意义 上 的 数据 分 析 主 要 针对 结构 化 数据 展开 ， 且 已 经 形成 了 一 整套 行 之 有 效 的 分 析 体 系 。 首 先 利 用 数据 库 来 存储 结构 化 
数据 ， 在 此 基础 上 构建 数据 仓库 ， 根 据 需要 构建 数据 立方 体 进行 联机 分 析 处 理 (Online Analytical Processing，OLAP) ， 可 以 
进行 多 个 维度 的 下 钻 (drill-down) 或 上 卷 (roll-up) 操作 。 对 于 从 数据 中 提炼 更 深层 次 的 知识 的 需求 导致 数据 挖掘 技术 的 产 
生 ， 并 促使 人 们 发 明了 聚 类 、 关 联 分 析 等 一 系列 在 实践 中 行 之 有 效 的 方法 。 这 一 整套 处 理 流程 在 处 理 相 对 较 少 的 结构 化 数据 时 极 
为 高 效 。 但 是 随 着 大 数据 时 代 的 到 来 ， 半 结构 化 和 非 结 构 化 数据 量 的 迅猛 增长 给 传统 的 分 析 技术 带 来 了 巨大 的 冲击 和 挑战 ， 主 要 
体现 在 如 下 几 方 面 。 


1) 数据 处 理 的 实时 性 。 随 着 时 间 的 流逝 ， 数 据 中 所 蕴含 的 知识 价值 往往 也 在 衰减 ， 因 此 很 多 领域 对 于 数据 的 实时 处 理 有 需 
求 。 随 着 大 数据 时 代 的 到 来 ， 更 多 应 用 场景 的 数据 分 析 从 离线 转向 了 在 线 ， 开 始 出 现实 时 处 理 的 需求 ， 比 如 KDD2012 最 佳 论 
文 趾 所 探讨 的 实时 广告 竞价 问题 。 大 数据 时 代 的 数据 实时 处 理 面 临 着 一 些 新 的 挑战 ， 主 要 体现 在 数据 处 理 模 式 的 选择 及 改进 上 。 
在 实时 处 理 的 模式 选择 中 ， 主 要 有 三 种 思路 ， 即 流 处 理 模式 、 批 处 理 模式 以 及 二 者 的 融合 。 相 关 研 究 成 果 在 上 一 节 已 经 有 详细 介 
绍 。 虽 然 已 有 的 研究 成 果 很 多 ， 但 是 仍 未 有 一 个 通用 的 大 数据 实时 处 理 框架 。 各 种 工具 实现 实时 处 理 的 方法 不 一 ， 支 持 的 应 用 类 
型 都 相对 有 限 ， 这 导致 实际 应 用 中 往往 需要 根据 自己 的 业务 需求 和 应 用 场景 对 现 有 技术 和 工具 进行 改造 。 


2) 动态 变化 环境 中 索引 的 设计 。 天 系数 据 库 中 的 索引 能 够 加 速 查询 速率 ， 但 是 传统 的 数据 管理 中 模式 基本 不 会 发 生变 化 ， 
因此 在 其 上 构建 索引 主要 考虑 的 是 索引 创建 、 更 新 等 的 效率 。 大 数据 时 代 的 数据 模式 随 着 数据 量 的 不 断 变化 可 能 会 处 于 不 断 的 变 
化 之 中 ， 这 就 要 求索 引 结构 的 设计 要 简单 、 高 效 ， 能 够 在 数据 模式 发 生变 化 时 很 快 进 行 调整 来 适应 。 在 数据 模式 变更 的 假设 前 提 
下 设计 新 的 索引 方案 将 是 大 数据 时 代 的 主要 挑战 之 一 。 


3) 先 验 知识 的 缺乏 。 传 统 分 析 主 要 针对 结构 化 数据 展开 ， 这 些 数 据 在 以 关系 模型 进行 存储 的 同时 就 隐 含 了 这 些 数据 内 部 关 
系 等 先 验 知识 。 比 如 我 们 知道 所 要 分 析 的 对 象 会 有 哪些 属性 ， 通 过 属性 我 们 又 能 大 致 了 解 其 可 能 的 取 值 范围 等 。 这 些 知识 使 得 我 
们 在 进行 数据 分 析 之 前 就 已 经 对 数据 有 了 一 定 的 理解 。 而 在 面 对 大 数据 分 析 时 ， 一 方面 是 半 结 构 化 和 非 结构 化 数据 的 人 存在， 这些 
数据 很 难以 类 似 结构 化 数据 的 方式 构建 出 其 内 部 的 正式 关系 ; 另 一 方面 很 多 数据 以 流 的 形式 源源 不 断 地 到 来 ， 对 这 些 需要 实时 处 
理 的 数据 很 难 有 足够 的 时 间 去 建立 先 验 知识 。 


[1] Petlich C, Dalessandro B, Hook R, etal. Bid Optimizing and Inventory Scoting in Targeted Online Advettising [LC] . Proceedings 


of the18th ACM SIGKDD International Conference on Knowledge Discovety and Data Mining (SIGKDD) . New York: ACM, 2012: 


804-812 . 


1.5.4 ”大 数据 能 耗 


在 能 源 价格 上 涨 、 数 据 中 心 存储 规模 不 断 扩 大 的 今天 ， 高 能 耗 已 逐渐 成 为 制约 大 数据 快速 发 展 的 一 个 主要 汀 贷 。 从 小 型 集群 
到 大 规模 数据 中 心 都 面临 着 降低 能 耗 的 问题 ， 但 是 尚未 引起 足够 多 的 重视 ， 相 关 的 研究 成 果 也 较 少 。 在 大 数据 管理 系统 中 ， 能 
主要 由 两 大 部 分 组 成 : 硬件 能 耗 和 软件 能 耗 ， 二 者 之 中 又 以 硬件 能 耗 为 主 。 在 理想 状态 下 ， 整 个 大 数据 管理 系统 的 能 耗 应 该 与 系 
统 利用 率 成 正比 。 但 是 实际 情况 并 不 符合 预期 ， 系 统 利 用 率 较 低 时 仍然 有 较 高 的 能 量 消耗 1。 针对 这 个 问题 ，《 纽 约 时 报 》 和 麦 
肯 锡 公司 经 过 一 年 的 联合 调查 ， 最 终 在 《纽约 时 报 》 上 发 表 文章 “Power，Pollution and the Internet” 四。 调查 显示 Google 
数据 中 心 年 耗 电 量 约 为 300 万 瓦 ， 而 Facebook 则 在 60 万 瓦 左右 。 最 令 人 惊讶 的 是 在 这 些 巨大 的 能 耗 中 ， 只 有 69% ~ 12% 的 能 量 被 
用 来 响应 用 户 的 查询 并 进行 计算 。 绝 大 部 分 的 电能 用 以 确保 服务 器 处 于 闲置 状态 ， 以 应 对 突如其来 的 网 络 流量 高 峰 ， 这 种 类 型 的 
功 耗 最 高 可 以 占 到 数据 中 心 所 有 能 耗 的 80%。 从 已 有 的 一 些 研究 成 果 来 看 ， 可 以 考虑 以 下 两 个 方面 来 改善 大 数据 能 耗 问 题 。 


1) 采用 新 型 低 功 耗 硬件 。 从 《纽约 时 报 》 的 调查 中 可 以 知道 绝 大 部 分 的 能 量 都 耗费 在 磁盘 上 。 在 空闲 的 状态 下 ， 传 统 的 磁 
盘 仍 然 具 有 很 高 的 能 耗 ， 并 且 随 着 系统 利用 率 的 提高 ， 能 耗 也 在 逐渐 升 高。 新 型 非 易 失 人 存储 器 件 的 出 现 给 大 数据 管理 系统 带 来 了 
新 的 希望 ， 如 闪存 、PCM 等 新 型 存储 硬件 具有 低能 耗 的 特性 。 昌 然 随 着 系统 利用 率 的 提高 ， 闪 人 存 、PCM 等 的 能 耗 也 有 所 升 高 ， 
但 是 其 总 体能 耗 仍 远 远 低 于 传统 磁盘 。 


2) 引入 可 再 生 的 新 能 源 。 数 据 中 心 所 使 用 的 电能 绝 大 部 分 都 是 从 不 可 再 生 的 能 源 中 产生 的 。 如 果 能 够 在 大 数据 存储 和 处 理 
中 引入 诸如 太阳 能 、 风 能 之 类 的 可 再 生 能 源 ， 将 在 很 大 程度 上 缓解 对 不 可 再 生 能 源 的 消耗 问题 。 这 方面 的 工作 很 少 ， 参 考 文 
献 B] 探 讨 了 如 何 利用 太阳 能 构建 一 个 绿色 环保 的 数据 库 。 


[1] Schall D, Hudlet V. Wattdb: An Energy-proportional Clustet of Wimpy Nodes LC] . Proceedings of the2011ACM SIGMOD 
Intetnational Conference on Management of data (SIGMOD) . New York: ACM, 2011: 1229-1232. 

[2] Glanz J. Power, Pollution and the Internet [J] . The New York Times, 2012, 22. 

[3] Chen C, He B, Tang X, et al. Green Databases Through Integration of Renewable Energy LC] . Proceedings of sixth Biennial 


Conference on Innovative Data Systems Reseatch (CIDR) . 2013, 1-11. 


1.5.5 ”大 数据 处 理 与 硬件 的 协同 


硬件 的 快速 升级 换代 有 力 地 促进 了 大 数据 的 发 展 ， 但 是 这 也 在 一 定 程度 上 造成 了 大 量 不 同 架构 硬件 共存 的 局 面 。 日 益 复杂 的 
硬件 环境 给 大 数据 管理 带 来 的 主要 挑战 有 如 下 两 点 。 


1) 硬件 异 构 性 带 来 的 大 数据 处 理 难题 。 整 个 数据 中 心 (集群 ) 内 部 不 同 机 器 之 间 的 性 能 会 存在 明显 的 差别 ， 因 为 不 同时 期 
购 入 的 不 同 厂 商 的 服务 器 在 IOPS、CPU 处 理 速 度 等 性 能 方面 会 有 很 大 的 差异 。 这 就 导致 了 硬件 环境 的 异 构 性 ， 而 这 种 异 构 性 会 
给 大 数据 的 处 理 带 来 诸多 问题 。 一 个 典型 的 例子 就 是 在 MapReduce 任 务 过 程 中 ， 其 总 的 处 理 时 间 很 大 程度 上 取决 于 Map 过 程 中 
处 理 时 间 最 长 的 节点 。 如 果 集 群 中 硬件 的 性 能 差异 过 大 ， 则 会 导致 大 量 的 计算 时 间 浪 费 在 性 能 较 好 的 服务 器 等 待 性 能 较 差 的 服务 
器 上 。 在 这 种 情况 下 服务 器 的 线性 增长 并 不 一 定 会 带 来 计算 能 力 的 线性 增长 ， 因 为 “ 木 桶 效应 ”制约 了 整个 集群 的 性 能 。 一 般 的 
解决 方案 是 考虑 硬件 异 构 的 环境 下 将 不 同 计算 强度 的 任务 智能 地 分 配给 计算 能 力 不 同 的 服务 器 ， 但 是 当 这 种 异 构 环境 的 规模 扩展 
到 数 以 万 计 的 集群 时 间 题 将 变 得 极为 复杂 。 


2) 新 硬件 给 大 数据 处 理 带 来 的 变革 。 所 有 的 软件 系统 都 构建 在 传统 的 计算 机 体系 结构 ( 即 CPU- 内 存 - 硬 盘 三 级 结构 ) 之 
上 。CPU 的 发 展 一 直 遵 循 着 摩尔 定律 ， 且 其 架构 已 经 从 单 核 转 入 多 核 ， 因 此 需要 深入 研究 如 何 让 软件 更 好 地 利用 CPU 多 核心 之 
间 的 并 发 机 制 。 由 于 机 械 特性 的 限制 ， 基 于 磁性 介质 的 机 械 硬盘 (Hard Disk Drive，HDD) 的 读 写 速率 在 过 去 几 十 年 中 提升 不 
大 ， 而 且 未 来 也 不 太 可 能 出 现 革命 性 提升 。 基 于 闪存 的 固态 硬盘 (Solid State Disk，SSD) 的 出 现 从 硬件 层 为 存储 系统 结构 的 
革新 提供 了 支持 ， 为 计算 机 存储 技术 的 发 展 和 存储 能 效 的 提高 带 来 了 新 的 契机 。SSD 具 有 很 多 优良 特性 ， 主 要 包括 极 高 的 读 写 性 
能 、 较 好 的 抗震 性 、 较 低 的 功 耗 、 较 小 的 体积 等 ， 因 此 正 得 到 越 来 越 广泛 的 应 用 。 但 是 直接 将 SSD 应 用 到 现 有 的 软件 上 并 不 一 定 
会 带 来 软件 性 能 的 大 幅 提升 ， 比 如 SSD 的 读 写 速率 是 HDD 的 60 ~ 150 倍 ， 基 于 SSD 的 数据 库 系统 的 查询 时 间 却 仅仅 提升 了 不 到 10 
人 [1 


二 者 之 间 的 巨大 差距 主要 是 由 SSD 的 一 些 特性 造成 的 ， 这 些 特性 包括 SSD 写 前 擦 除 特性 导致 的 读 写 操作 代价 不 对 称 、SSD 存 
储 芯 片 的 擦 除 次 数 有 限 等 。 软 件 设计 之 时 必须 仔细 考虑 这 些 特 性 才能 够 充分 利用 SSD 的 优良 特性 。 与 大 容量 磁盘 和 磁盘 阵列 相 
比 ， 固 态 硬盘 的 存储 容量 相对 较 低 ， 单 位 容量 的 价格 远 高 于 磁盘 ， 不 同类 型 的 固态 硬盘 产品 性 能 差异 较 大 。 且 将 固态 硬盘 直接 蔡 
换 磁盘 应 用 到 现 有 的 存储 体系 中 难以 充分 发 挥 其 性 能 。 因 此 现 阶段 可 以 考虑 通过 构建 HDD 和 SSD 的 混合 存储 系统 来 解决 大 数据 
处 理 问题 。 当 前 混合 存储 系统 的 实现 主要 有 三 种 思路 : HDD 作 为 内 存 的 扩展 充当 SSD 写 缓冲 ; HDD 和 SSD 同 时 用 作 二 级 存储 ; 
SSD 用 作 内 存 的 扩展 充当 HDD 读 写 缓冲 。 国 外 的 Google、Facebook， 国 内 的 百度 、 淘 宝 等 公司 已 经 开始 在 实际 运营 环境 中 大 
规模 使 用 混合 存储 系统 来 提升 整体 性 能 。 在 这 三 级 结构 之 中 ， 内 存 的 发 展 处 于 一 个 相对 缓慢 的 阶段 ， 一 直 没 有 出 现 革命 性 变化 。 
构建 任何 一 个 软件 系统 都 会 假设 内 存 是 一 个 容量 有 限 的 易 失 结构 体 。 随 着 以 PCM 为 代表 的 SCM 的 出 现 ， 未 来 的 内 人 存 极 有 可 能 会 
兼 具 现在 内 存 和 磁盘 的 双重 特性 ， 即 处 理 速 度 极 快 且 非 易 失 。 虽 然 PCM 尚 未 有 可 以 大 规模 量 产 的 产品 推出 ， 但 是 各 大 主流 厂商 
都 对 其 非常 重视 ， 三 星 电子 在 2012 年 国际 固态 电路 会 议 (1SSCC2012) 上 发 表 了 采用 20nm 工 艺 制程 的 容量 为 8GB 的 PCM 元 
件 。 一 旦 PCM 能 够 大 规模 投入 使 用 ， 必 将 给 现 有 的 大 数据 处 理 带 来 一 场 根本 性 变革 。 璧 如 前 面 提 到 的 流 处 理 模式 就 可 以 不 再 将 
内 存 的 大 小 限制 作为 算法 设计 过 程 中 的 一 个 主要 考虑 因素 。 


[1] Lee S W, Moon B. Design of Flash-based DBMS: An In-page Logsing Approach [C] . Proceedings of the2007ACM SIGMOD 


international conference on Management of data (SIGMOD) . New York: ACM, 2007: 55-66. 


1.6 小 结 


随 着 云 计算 、 物 联网 等 技术 的 发 展 ， 数 据 呈 现 爆炸 式 增长 ， 人 们 正 被 数据 洪流 所 包围 ， 大 数据 时 代 已 经 到 来 。 正 确 利 用 大 数 
据 给 人 们 的 生活 带 来 了 极 大 的 便利 ， 但 与 此 同时 也 给 传统 的 数据 管理 方式 带 来 了 极 大 的 挑战 。 


本 章 对 最 近 几 年 国内 外 大 数据 相关 的 研究 成 果 进行 了 全 面 的 回顾 和 总 结 ， 介 绍 了 大 数据 的 基本 概念 ， 详 细 分 析 了 大 数据 的 演 
变 过 程 、 应 用 要 素 、 处 理 模式 和 天 键 技术 。 余 下 章节 将 根据 大 数据 时 代 面 临 的 挑战 ， 重 点 阐述 大 数据 融合 、 大 数据 存储、 大 数据 
分 析 、 大 数据 隐私 和 大 数据 管理 系统 等 相关 核心 技术 。 


第 2 草 ”大 数据 融合 


2.1 引言 


大 数据 时 代 人 们 面临 的 最 根本 挑战 是 从 数据 中 凝练 可 领悟 的 知识 [器 ， 其 关键 技术 是 数据 的 集成 或 融合 B]。 进 入 21 世 纪 以 
来 ， 这 些 技术 已 经 取得 了 重大 进展 ， 如 深 网 (Deep Web) 数据 集成 技术 内 、 知 识 库 (Knowledge Base，KB) 技术 Pll6l、 关 
联 数据 (Linked Data) 集成 技术 [、 大 数据 集成 技术 [8 等 。 这 些 技术 在 结构 化 、 半 结构 化 、 非 结构 化 等 各 种 类 型 的 数据 处 理 上 
已 形成 优势 ， 并 广泛 应 用 于 各 个 领域 : @ 商 业 领 域 ， 如 Google 搜 索引 擎 借助 Google 知 识 图 谱 回 、 微 软 的 必 应 搜索 引擎 借助 知识 
库 Satori[10] 提 高 检索 质量 和 检索 效率 ，@ 科 学 领域 ， 如 IBM 的 Watson 问答 系统 借助 DBpediaI11]、YAGO[I12]、FreebaseI13] 提 
供 语义 感知 的 问答 服务 ; @ 专 业 领 域 ， 如 生命 科学 利用 Bio2RDFII4、Neurocommons[15] 等 知识 图 谱 作 问答 和 决策 。 


然而 ， 在 使 用 这 些 已 有 技术 获取 知识 时 出 现 了 如 下 问题 : @@ 获 取 的 知识 规模 宏大 ， 但 缺乏 可 理解 性 和 可 实用 性 。 以 知识 库 为 
例 ， 如 Google 知 识 图 谱 [16] 目 前 包含 多 于 5 亿 实体 和 350 人 Z 条 实体 间 的 关系 信息 ， 至 少 吉 括 几 和 干 种 谓词 ， 这 些 亩 词 还 在 不 断 增 加 
和 变化 。 要 想 让 用 户 掌握 这 些 谓词 和 模式 不 太 现实 ， 所 以 ， 当 他 们 面 对 这 些 干 丝 万 缕 的 关系 时 ， 很 难 从 本 质 上 理解 和 消化 这 些 知 
识 ， 从 而 降低 了 大 数据 应 有 的 价值 。@ 得 到 的 知识 品质 有 差别 [1 7]， 存 在 不 一 致 性 甚至 冲突 ， 尤 其 是 时 态 型 数据 ， 知 识 的 品质 更 
难以 有 效 甄 别 。 并 且 融 合 的 结果 缺乏 可 解释 性 ， 从 而 导致 其 可 靠 性 受到 质疑 。@@ 缺 乏 与 领域 知识 的 结合 ， 并 且 获 取 的 知识 只 处 于 
表层 理解 ， 导 致 融合 结果 与 实际 应 用 需求 存在 鸿沟 ， 例 如 ， 一 些 已 被 发 现 的 表层 现象 、 规 律 等 没有 进一步 形成 普 适 机 理 ， 使 得 这 
种 规律 性 的 发 现 不 能 有 效 反馈 给 融合 过 程 。 


经 研究 发 现 ， 引 发 这 些 问题 的 关键 是 大 数据 在 不 断 动态 演化 ， 并 且 需 要 从 多 个 维度 、 多 种 粒度 进行 解释 。 此 外 ， 数 据 的 组 织 
方式 不 同 得 到 的 知识 品质 也 会 有 差异 ， 犹 如 碳 原 子 既 可 以 构成 钻石 ， 也 可 以 构成 石墨 。 所 以 我 们 认为 当下 面临 的 一 个 突出 问题 是 


如 何 有 效 地 融合 知识 使 大 数据 的 价值 最 大 化 ， 此 即 大 数据 融合 问题 ， 其 关键 是 突破 上 述 局 限 一 一 需要 把 目标 聚焦 于 大 数据 新 的 
特征 和 融合 方式 。 


为 此 ，2.2 节 给 出 了 大 数据 融合 的 概念 ， 并 分 析 了 融合 需求 和 融合 对 象 的 独特 性 。2.3 节 总 结 归纳 了 现 有 融合 范式 ， 并 分 析 对 
比 了 这 些 融合 范式 的 共同 点 和 各 自 的 优 缺 点 ， 以 及 面 对 大 数据 ， 这 些 融合 范式 存在 的 共同 缺陷 ， 提 出 适合 大 数据 的 新 型 融合 方法 
论 一 一 动态 演化 的 数据 融合 与 多 维度 、 多 粒度 的 知识 融合 双环 驱动 的 大 数据 融合 。2.4 至 2.6 节 分 别 探讨 大 数据 融合 中 数据 融合 、 
知识 融合 和 了 驱动 枢纽 的 内 涵 、 实 现 方法 和 技术 难点 。 
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第 2 草 ”大 数据 融合 


2.1 引言 


大 数据 时 代 人 们 面临 的 最 根本 挑战 是 从 数据 中 凝练 可 领悟 的 知识 [1 所， 其 关键 技术 是 数据 的 集成 或 融合 BJ。 进入 21 世 纪 以 
来 ， 这 些 技术 已 经 取得 了 重大 进展 ， 如 深 网 (Deep Web) 数据 集成 技术 四 、 知 识 库 (Knowledge Base，KB) 技术 Pll6l、 关 
联 数据 (Linked Data) 集成 技术 由 、 大 数据 集成 技术 [8 等 。 这 些 技术 在 结构 化 、 半 结构 化 、 非 结构 化 等 各 种 类 型 的 数据 处 理 上 
已 形成 优势 ， 并 广泛 应 用 于 各 个 领域 : @ 商 业 领 域 ， 如 Google 搜 索引 擎 借助 Google 知 识 图 谱 趾 、 微 软 的 必 应 搜索 引擎 借助 知识 
库 Satori[10] 提 高 检索 质量 和 检索 效率 ，@ 科 学 领域 ， 如 IBM 的 Watson 问答 系统 借助 DBpedia[111、YAGOI12]、Freebase[l13] 提 


供 语义 感知 的 问答 服务 ，@@ 专 业 领 域 ， 如 生命 科学 利用 Bio2RDFL 和 、Neurocommonsi12| 等 知识 图 谱 作 问答 和 决策 。 


然而 ， 在 使 用 这 些 已 有 技术 获取 知识 时 出 现 了 如 下 问题 : 人 获取 的 知识 规模 宏大 ， 但 缺乏 可 理解 性 和 可 实用 性 。 以 知识 库 为 
例 ， 如 Google 知 识 图 谱 [15) 目 前 包含 多 于 5 亿 实 体 和 350 亿 条 实体 间 的 关系 信息 ， 至 少 事 括 几 和 干 种 谓词 ， 这 些 谓词 还 在 不 断 增加 
和 变化 。 要 想 让 用 户 掌握 这 些 谓词 和 模式 不 太 现实 ， 所 以 ， 当 他 们 面 对 这 些 干 丝 万 缕 的 关系 时 ， 很 难 从 本 质 上 理解 和 消化 这 些 知 
识 ， 从 而 降低 了 大 数据 应 有 的 价值 。@ 得 到 的 知识 品质 有 差别 [1 7]， 存 在 不 一 致 性 甚至 冲突 ， 尤 其 是 时 态 型 数据 ， 知 识 的 品质 更 
难以 有 效 甄 别 。 并 且 融 合 的 结果 缺乏 可 解释 性 ， 从 而 导致 其 可 靠 性 受到 质疑 。@@ 缺 乏 与 领域 知识 的 结合 ， 并 且 获 取 的 知识 只 处 于 
表层 理解 ， 导 致 融合 结果 与 实际 应 用 需求 存在 鸿沟 ， 例 如 ， 一 些 已 被 发 现 的 表层 现象 、 规 律 等 没有 进一步 形成 普 适 机 理 ， 使 得 这 
种 规律 性 的 发 现 不 能 有 效 反馈 给 融合 过 程 。 


经 研究 发 现 ， 引 发 这 些 问题 的 关键 是 大 数据 在 不 断 动态 演化 ， 并 且 需 要 从 多 个 维度 、 多 种 粒度 进行 解释 。 此 外 ， 数 据 的 组 织 
方式 不 同 得 到 的 知识 品质 也 会 有 差异 ， 犹 如 碳 原 子 既 可 以 构成 钻石 ， 也 可 以 构成 石墨 。 所 以 我 们 认为 当下 面临 的 一 个 突出 问题 是 
如 何 有 效 地 融合 知识 使 大 数据 的 价值 最 大 化 ， 此 即 大 数据 融合 问题 ， 其 关键 是 突破 上 述 局 限 一 一 需要 把 目标 聚焦 于 大 数据 新 的 
特征 和 融合 方式 。 


为 此 ，2.2 节 给 出 了 大 数据 融合 的 概念 ， 并 分 析 了 融合 需求 和 融合 对 象 的 独特 性 。2.3 节 总 结 归纳 了 现 有 融合 学 式 ， 并 分 析 对 
比 了 这 些 融合 范式 的 共同 点 和 各 自 的 优 缺 点 ， 以 及 面 对 大 数据 ， 这 些 融合 范式 存在 的 共同 缺陷 ， 提 出 适合 大 数据 的 新 型 融合 方法 
论 一 一 动态 演化 的 数据 融合 与 多 维度 、 多 粒度 的 知识 融合 双环 驱动 的 大 数据 融合 。2.4 至 2.6 节 分 别 探讨 大 数据 融合 中 数据 融合 、 
知识 融合 和 了 驱动 枢纽 的 内 涵 、 实 现 方法 和 技术 难点 。 
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2.2 ”大 数据 融合 的 概念 


众所周知 ， 大 数据 价值 链 是 一 个 阶梯 式 循 环 过 程 : “离散 数据 一 集成 化 数据 一 知识 理解 一 普 适 机 理 凝 练 一 解释 客观 现象 、 回 
归 自 然 ”， 每 一 个 链条 是 对 大 数据 的 一 次 价值 提升 。 为 了 实现 这 一 价值 ， 我 们 提出 了 大 数据 融合 的 概念 ， 它 是 获取 高 品质 知识 、 
最 大 程度 发 挥 大 数据 价值 的 一 种 手段 ， 它 的 重要 性 毋庸 置疑 。 但 是 ， 大 数据 的 特征 已 经 发 生变 化 ， 人 们 对 数据 的 需求 也 从 多 源 集 
成 提供 丰富 的 数据 上 升 到 需要 呈现 多 维度 、 多 粒度 、 动 态 演化 知识 的 新 阶段 。 所 以 ， 大 数据 融合 必然 有 其 独到 之 处 。 


2.2.1 大 数据 融合 需求 的 独特 性 


21 世 纪 初 ， 人 们 为 了 利用 深 网 中 丰富 、 专 业 的 数据 ， 开 发 了 深 网 数据 集成 []， 集 成 多 个 数据 源 使 之 成 为 领域 性 专用 知识 
库 。 到 了 大 数据 初期 ， 数 据 繁杂 、 增 长 速度 快 站 ， 为 了 实现 智能 化 语义 检索 Bl， 人 们 又 开发 了 各 种 各 样 的 知识 库 ， 如 DBpedia、 
YAGO、Freebase、Probase 欠 等 。 但 是 ， 当 下 为 了 缓解 数据 的 无 限 性 、 知 识 的 零散 性 与 用 户 需求 无 法 满足 之 间 的 矛盾 ， 需 要 把 
数据 变 成 有 上 下 文 意义 的 灵活 的 数据 结构 ， 实 现 数据 智能 ， 最 大 限度 地 提升 大 数据 的 价值 ， 进 而 实现 社会 智能 ， 必 须要 有 新 的 融 
合 方式 ， 此 即 大 数据 融合 。 大 数据 融合 不 同 于 以 往 的 数据 融合 ， 它 不 仅 需 要 对 数据 进行 融合 ， 还 需要 对 得 到 的 集成 化 数据 进行 理 
解 ， 更 需要 将 理解 的 结果 反馈 给 融合 过 程 ， 提 升 融合 的 效率 和 准确 性 。 


下 面 用 一 个 排查 犯罪 嫌疑 人 的 小 案例 来 说 明 这 种 需求 的 独特 性 。 可 用 线索 : @@ 嫌 疑 人 A 在 作案 后 潜逃 ， 但 他 在 犯罪 现场 留 下 
了 脚印 等 少量 犯罪 证 据 ; @ 作 案 前 ， 人 员 B 与 A 一 起 生活 了 40 年 ， 房 产权 归 A 所 有 ， 并 且 ，B 与 A 经 常 通话 ;@ 案 发 前 ，A 与 D 一 起 
来 过 作案 现场 几 次 ， 期 间 他 们 频繁 通话 ; @ 案 友 后 ，A 消 失 ， 但 在 另外 一 个 地 方 出 现 了 人 员 C，C 在 ATM 机 上 对 A 的 银行 卡 有 过 取 
款 记录 ; @ 案 发 后 ，C 与 D 有 密切 联系 ， 并 与 D 一 起 住 了 几 次 旅馆 ; @ 之 后 C 还 去 过 B 的 住宅 并 与 B 有 过 通信 ; Q@C 与 D 的 交通 违章 
照片 在 微 博 、 微 信 等 社交 媒体 上 频繁 转播 ; @ 公 安 部 门 以 往 卷宗 中 记录 D 有 犯罪 前 科 。 这 些 数据 以 及 涉案 相关 人 员 与 嫌疑 人 A 的 
关系 如 图 2-1 所 示 。 
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图 2-1 大 数据 融合 案例 


图 2-1 中 关系 看 似 简单 ， 但 它 涉及 8 个 不 同 的 数据 源 ， 分 别 是 房产 局 的 房产 登记 数据 、 电 信和 运营 商 的 手机 入 网 数据 和 通话 记 
录 数 据 、 派 出 所 提供 的 身份 证 号 、 银 行 提供 的 卡号 和 交易 信息 、 客 运 站 提供 的 旅客 出 行 数据 、 旅 店 提供 的 住宿 数据 、 公 安 部 门 提 
供 的 案犯 卷宗 信息 ， 以 及 社交 媒体 上 抽取 的 新 闻 数 据 等 。 这 些 数 据 是 跨 媒体 的 ， 有 记录 型 的 、 文 本 型 的 ， 还 有 图 片 和 视频 。 并 且 
根据 图 2-1 案 例 数据 ， 我 们 可 以 得 到 以 下 信息 : 数据 1 中 的 脚印 数据 可 以 判断 A 的 大 概 身高 和 体重 ， 这 里 主要 用 到 历史 数据 分 析 归 
纳 出 的 普 适 知识 。 数 据 2 暗含 了 A 与 B 可 能 是 亲属 天 系 。 数 据 3 上 暗含 了 A 与 C 可 能 是 共犯 。 由 数据 4 可 以 判断 出 C 拥 有 A 的 银行 卡 和 密 
码 。 由 数据 3 ~ 5 可 以 判断 A 与 C 很 可 能 是 同一 个 人 。 数 据 7 中 C 的 体型 数据 可 以 与 经 过 理解 的 数据 1P] 比 较 得 出 A 与 C 极 有 可 能 是 后 
一 个 人 ， 数 据 6 更 加 确定 A 与 C 是 同一 个 人 。 


由 上 述 案例 我 们 可 以 看 出 ， 大 数据 融合 意义 重大 ， 但 也 任重道远 ， 它 所 面临 的 问题 空前 复杂 化 ， 表 现 如 下 。 


1) 割裂 的 多 源 异 构 数据 : 目前 需要 处 理 的 数据 可 能 来 自 领域 数据 库 、 知 识 库 或 者 Web 页 面 的 开放 信息 ， 从 来 源 角度 看 是 多 
源 异 构 的 。 而 且 ， 这 些 数 据 被 物理 地 存放 在 不 同 的 系统 中 。 这 些 割 裂 的 多 源 异 构 数据 造成 了 各 种 “数据 孤岛 。， 给 大 数据 分 析 处 
理 带 来 非常 大 的 挑战 ， 需 要 把 这 些 割 裂 的 数据 整合 到 统一 的 系统 中 。 


2) 数据 规模 与 数据 价值 的 矛盾 : 当下 ， 越 来 越 丰富 的 数据 提供 了 更 多 有 价值 的 信息 ， 同 时 数据 的 规模 也 越 来 越 大 ， 这 对 已 
有 的 数据 存储 和 处 理 方 法 提出 了 挑战 ， 需 要 对 融合 的 规模 进行 控制 。 就 像 案例 中 所 述 ， 如 果 办 案 时 相关 数据 越 多 就 越 有 可 能 快速 
破案 。 但 是 ， 目 前 需要 处 理 的 数据 规模 已 经 让 业界 无 法 承受 。 


3) 跨 媒体 、 跨 语言 的 关联 : 需要 处 理 的 数据 有 结构 化 数据 、 半 结构 化 数据 和 非 结构 数据 ， 这 对 数据 关联 的 发 现 提出 了 挑 
战 ， 尤 其 是 图 片 、 视 频 、 音 频数 据 与 文本 数据 的 关联 。 这 种 情况 在 公共 安全 领域 极为 常见 ， 如 何 自动 识别 它们 之 间 的 关联 是 工程 
实际 中 亚 待 解决 的 问题 。 并 且 数 据 可 能 源 于 多 语种 ， 如 学 术 领 域 提 到 的 同一 作者 可 以 发 表 中 文 、 英 文 论文 。 

4) 实体 和 关系 的 动态 演化 : 数据 是 动态 变化 的 ， 实 体 和 天 系 也 是 随时 间 不 断 演化 的 ， 这 就 增加 了 实体 和 关系 的 判别 难度 ， 


容易 造成 数据 不 一 致 。 比 如 ， 公 共 安 全 领域 涉及 的 嫌犯 在 作案 后 更 改姓 名 ， 学 术 领 域 中 作者 更 换 了 所 在 单位 等 都 属于 此 类 情况 。 
因此 ， 需 要 合理 建 模 演化 行为 ， 保 证 数据 一 致 性 。 


5) 跨 领域 、 跨 行业 的 知识 传播 : 大 数据 是 复杂 的 ， 各 领域 各 行业 的 大 数据 也 是 有 所 不 同 的， 但 是 所 用 的 知识 原理 、 处 理 方 
法 是 相通 的 ， 可 以 相互 借鉴 ， 比 如 可 以 用 布衣 运动 的 知识 刻画 鱼 类 中 掠 食 者 在 食物 富 集 时 的 运动 轨迹 。 所 以 ， 大 数据 融合 需要 跨 
领域 的 知识 学 习 和 跨行 业 体系 的 知识 复 用 。 


6) 知识 的 隐 含 性 : 从 案例 中 我 们 也 可 以 发 现 ， 隐 式 关系 比 显 式 知识 更 重要 。 例 如 两 个 嫌疑 人 在 案 发 前 同时 出 现在 案 发 现 
场 ， 那 么 他 们 很 有 可 能 是 共犯 ， 又 如 一 个 嫌疑 人 的 突然 消失 和 另 一 个 嫌疑 人 的 突然 出 现 很 可 能 暗含 着 嫌疑 人 是 利用 了 身份 洗 白 技 
术 等 。 这 种 隐 含 的 关系 对 知识 的 理解 和 数据 的 融合 都 有 很 大 帮助 ， 但 是 这 些 隐 式 知识 的 获取 需要 对 相应 数据 作 大 量 分 析 、 深 层次 
理解 和 抽象 归纳 。 


四 卫 小 峰 ， 刘 伟 ， 姜 芳 范 ， 等 ,Web 数据 管理 : 概念 与 技术 . 北京 : 清华 大 学 出 版 社 ，2014. 

[2] Nature2008. Big Data [J] . Nature. 2008 . 

[3] Dong X L, Stivastava D. Big Data Integration [C] . Proceedings of Data Engineering (ICDE) ，2013IEEE29th International 
Conference on. NJ: IEEE, 2013: 1245-1248. 

[1] Wu W, Li H, Wang H, et al. Probase: A Probabilistic Taxonomy for Text Understanding [C] . Proceedings of the2012ACM 
SIGMOD International Conference on Management of Data (SIGMOD) . New York: ACM, 2012: 481-492 . 


[5] 数据 1~7 源 于 可 用 线索 1~7， 并 与 之 对 应 。 


2.2.2 ”大 数据 融合 对 象 的 独特 性 


当下 数据 驱动 的 电信 、 社 交 媒 体 、 生 物 医疗 、 电 子 政务 商务 等 各 种 各 样 的 领域 都 在 产生 着 大 数据 ， 人 们 也 期 望 从 这 些 数据 中 
分 析 和 抽取 出 价值 。 随 着 大 规模 数据 关联 、 交 叉 和 融合 ， 将 不 同 数据 链接 和 融合 会 使 数据 的 价值 爆炸 性 地 增 大 。 但 是 大 数据 融合 
在 多 个 维度 上 不 同 于 传统 数据 集成 ， 主 要 是 因为 大 数据 不 再 简单 呈现 为 3V 一 一 海量 性 (Volume) 、 高 速 性 (Velocity) 、 类 型 
多 样 性 (Variety) 一 一 特征 (1]， 除 了 海量 性 和 高 速 性 ， 还 呈现 出 了 更 复杂 的 特征 [1 





1) 多 元 性 : 是 指数 据 在 内 容 、 类 型 和 语义 上 的 不 同 维度 和 粒度 大 小 ， 不 同 于 传统 数据 的 多 样 性 。 传 统 多 样 性 强调 的 是 类 型 
多 样 内 ， 如 数据 源 类 型 多 样 、 数 据 类 型 (结构 化 、 半 结构 化 、 非 结构 化 ) 多 样 等 。 当 下 数据 不 仅 是 类 型 多 样 ， 更 显著 的 是 数据 内 
容 的 “维度 ”多 样 和 知识 范畴 的 “粒度 ”多 样 ， 呈 现 出 一 种 多 元 性 。 例 如 数据 的 全 属性 值 、 部 分 属性 值 以 及 数据 附 合 语 义 后 形成 
的 长 数据 Pl、 精 细 化 数据 ， 或 者 考虑 数据 之 间 关 联 关系 和 背景 知识 后 形成 的 话题 、 事 件 等 。 也 就 是 说 ， 多 元 性 更 加 强调 的 是 数据 
所 包含 的 语义 ， 即 语义 的 维度 和 粒度 。 多 元 性 与 演化 性 成 为 当下 大 数据 的 精髓 ， 是 区 别 于 大 规模 数据 、 海 量 数 据 或 早期 “大 数 
据 ” ( 量 大 ) 的 最 显著 特征 。 


2) 演化 性 : 是 指数 据 的 含义 随时 间或 解释 的 变化 而 变化 的 一 种 特性 ， 体 现 了 数据 的 动态 性 和 知识 的 演变 性 。 例 如 实体 的 某 
些 属性 在 不 同时 间 点 可 能 产生 变化 ， 以 教师 为 例 ， 他 的 职称 可 能 在 某 个 时 间 点 从 副教授 升 为 教授 ; 或 者 以 话题 、 事 件 为 例 ， 它 的 
故事 情节 随时 间 不 断 演 变 发 展 等 。 这 就 要 求 合 理 建 模 演 化 行为 ， 保 证 数据 一 致 性 。 但 是 演化 一 般 都 是 一 个 渐进 和 相对 平滑 的 过 
程 ， 比 如 一 些 属性 演化 ， 但 是 其 他 属性 不 一 定 发 生变 化 ; 或 者 实体 属性 值 在 短期 内 进行 演化 ， 这 些 属 性 值 上 的 变化 通常 不 会 很 奇 
怪 。 这 些 特征 为 演化 建 模 提供 了 依据 。 另 一 方面 ， 演 化 性 与 高 速 性 共同 构成 了 知识 的 动态 演化 性 ， 更 加 贴切 地 体现 出 现实 数据 的 
本 原 性 ， 而 非 单纯 地 强调 速度 ， 但 是 数据 的 演化 不 可 避免 地 会 增加 大 数据 融合 中 多 元 性 的 处 理 难 度 。 


3) 真实 性 : 是 指 由 数据 的 不 一 致 、 数 据 表示 和 数据 语义 引起 理解 歧义 的 一 种 特性 ， 主 要 由 实体 的 同名 异 义 表示 和 异 名 同 义 
表示 以 及 关系 的 变化 引起 。 例 如 同一 概念 信息 “Departure Time” 在 不 同 数据 源 中 表示 非常 不 同 ， 在 有 的 数据 源 中 表示 实际 出 
发 时 间 ， 而 在 有 的 数据 源 中 表示 计划 出 发 时 间 ; 又 如 不 同 概念 信息 一 一 动物 “python” 和 编程 语言 “python” 一 一 却 在 动物 数 
据 源 和 图 书 数据 源 中 采用 相似 的 表示 ， 即 都 用 “python” 表 示 。 由 于 数据 源 具有 自治 性 ， 所 以 这 种 现象 普遍 存在 ， 它 们 增加 了 


理解 的 不 确定 性 。 为 了 融合 来 自 不 同 数据 源 的 数据 ， 我 们 需要 解决 这 种 数据 语义 和 表示 上 的 歧义 性 以 及 数据 源 自 身 之 间 的 不 一 致 
性 。 可 以 说 真实 性 由 数据 的 不 一 致 和 演化 性 引起 ， 反 过 来 又 为 不 一 致 和 演化 性 提供 了 印证 ， 只 有 知识 得 到 印证 才能 使 演化 更 新 和 
融合 更 有 意义 。 


4) 隐 含 性 : 是 指数 据 内 部 暗含 的 一 些 规律 、 知 识 ， 或 者 数据 之 间 隐 藏 的 一 些 关 系 ， 但 从 数据 表面 无 法 获知 ， 需 要 从 数据 的 
语义 层面 理解 、 分 析 、 归 纳 或 抽象 才能 得 到 的 一 种 特性 。 最 简单 的 例子 是 语 境 词 中 暗含 的 语义 ， 比 如 “Premiere Lincoln” 中 语 
境 词 “Premiere” 表 明 “Lincoln” 在 这 里 指 电影 ， 而 单个 词 “Lincoln” 则 无 法 判断 它 到 底 指 什么 ， 这 种 词语 词 之 间 的 语义 相关 
性 对 于 发 现 浅 层 的 隐 含 性 是 非常 重要 的 。 复 杂 一 点 的 例子 ， 例 如 鱼 类 中 的 掠 食 者 在 食物 富 集 时 运动 轨迹 呈 布 衣 运 动 ， 或 者 “合作 
者 ”天 系 可 能 暗含 “ 师 生 ”关系 等 ， 这 些 只 能 通过 对 大 量 数据 的 分 析 、 归 纳 、 理 解 或 抽象 才能 得 到 。 从 2.2.1 节 的 案例 中 我 们 也 
可 以 发 现 ， 除 了 显 式 知识 ， 还 有 更 多 的 隐 式 知识 ， 并 且 隐 式 知识 比 显 式 知识 更 重要 。 这 种 隐 含 性 是 当下 大 数据 的 显著 特征 ， 是 普 
适 性 发 现 的 基础 。 


5) 普 适 性 : 是 指 在 认 知 范围 内 可 以 达成 共识 天 系 的 特征 ， 这 种 特征 有 时 候 是 通过 大 量 显 式 知识 的 共 现 得 到 的 ， 例 如 ，“ 老 
师 ” 和 “蜡烛 ”频繁 共 现 ， 所 以 它们 在 神经 元 连接 上 具有 了 普 适 性 。 但 是 ， 大 部 分 是 通过 对 隐 式 知识 进行 深层 次 语义 理解 、 分 
析 、 归 纳 或 抽象 得 到 的 。 比 如 ， 鱼 类 中 的 掠 食 者 在 食物 富 集 时 运动 轨迹 呈 布 朗 运 动 ,或 者 “ 师 生 ”关系 可 能 暗合 在 学 术 论 文 的 合 
作者 “关系 ”中 等 。 这 种 普 适 性 发 现 源 于 知识 之 间 隐 性 关联 的 发 现 ， 是 将 大 数据 定位 到 知识 层面 的 一 个 独特 特征 ， 它 比 信息 本 身 
的 增长 更 有 价值 ， 主 要 表现 在 数据 的 分 布 规律 、 结 构 规 则 ， 以 及 数据 之 间 的 天 联 模式 上 。 看 几 个 数据 分 布 规律 和 结构 规则 方面 的 
简单 例子 ， 例 如 众所周知 的 实体 与 实体 之 间 普 遍 存 在 的 二 元 关系 ， 以 它 为 原子 单位 可 以 将 知识 图 谱 表示 为 < 实体 ， 天 系 ， 实 体 > 
三 元 组 的 形式 。 数 据 之 间 的 关联 模式 方面 ， 利 用 词 向 量 空间 、 词 汇 的 语义 关系 和 句法 关系 中 平移 不 变现 象 这 种 普 适 知识 ， 可 以 将 
知识 图 谱 三 元 组 中 的 实体 、 关 系 映射 在 一 个 语义 空间 上 的 隐 性 向 量 ， 然 后 用 向 量 之 间 的 转换 关系 (translation) 来 表示 三 元 
组 ， 这 个 向 量 的 每 个 维度 所 代表 的 含义 人 们 无 法 解释 ， 只 能 用 于 机 器 计算 ， 但 是 它 可 以 准确 表述 这 种 数据 之 间 的 天 系 。 这 种 例子 
举 不 胜 举 ， 这 里 就 不 再 班 述 。 


6) 元 余 性 : 是 指数 据 的 重 者 。 在 很 多 情境 下 ， 单 一 的 数据 源 可 能 包含 大 规模 的 数据 ， 如 社交 媒体 、 电 信 网 络 以 及 金融 等 。 
并 且 ， 单 个 领域 中 很 可 能 包含 大 量 数 据 源 ， 从 不 同 数据 源 得 到 的 数据 通常 存在 着 部 分 重 著 ， 因 而 导致 要 被 融合 的 大 量 数据 之 间 存 
在 巨大 的 数据 元 余 。 这 种 匈 余 也 是 造成 大 数据 海量 性 的 一 个 原因 ， 但 是 另 一 方面 ， 它 可 以 有 效 地 处 理 大 数据 融合 中 数据 真实 性 带 
来 的 挑战 。 直 观 地 ， 如 果 仅 有 几 个 数据 源 提供 有 重 蔷 的 信息 ， 而 数据 源 对 某 数据 项 提供 的 值 是 有 冲突 的 ， 则 很 难 确信 地 判断 出 真 
值 。 但 是 如 果 存 在 大 量 重 蔷 信息 ， 则 可 以 使 用 复杂 的 语义 分 析 技 术 来 发 现 真 值 。 同 时 ， 它 也 可 以 解决 多 源 异 构 数 据 源 带 来 的 挑 
战 ， 比 如 借助 它 可 以 找到 数据 源 模式 之 间 的 属性 匹配 ， 这 在 模式 对 齐 中 至 天 重要 。 直 观 地 ， 如 果 一 个 领域 存在 很 大 程度 的 数据 宛 
余 ， 其 实体 和 数据 源 的 二 分 图 具有 良好 的 连通 性 ， 则 可 以 从 一 组 已 知 的 种 子 实体 出 发 ， 使 用 搜索 引擎 的 技术 发 现 该 领域 内 的 大 部 
分 实体 [0。 当 这 些 实体 在 不 同 的 数据 源 有 不 同 的 对 应 模式 时 ， 我 们 就 可 以 很 自然 地 找到 不 同 数据 源 所 使 用 的 模式 之 间 的 属性 匹 
配 。 


所 以 ， 当 下 大 数据 融合 的 对 象 已 经 不 单 是 数据 ， 而 是 数据 和 知识 的 复合 体 。 大 数据 的 融合 更 应 注重 建立 数据 间 、 信 息 间 和 知 
识 片 段 间 多 维度 、 多 粒度 的 关联 关系， 实现 更 多 层面 的 知识 交互 。 
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2.3 ”大 数据 融合 的 方法 论 


由 2.2 节 的 分 析 可 知 ， 大 数据 融合 是 一 个 多 学 科 跨 领域 的 研究 问题 ， 它 的 任务 是 将 碎片 化 的 数据 相 联系 ， 将 分 散 的 数据 集 
中 ， 形 成 表层 知识 ， 即 知识 资源 ; 进而 使 隐 性 知识 显 性 化 ， 使 表层 知识 上 升 为 普 适 机 理 。 从 而 在 数据 资源 、 知 识 资 源 与 用 户 之 间 
建立 有 效 的 联系 ， 缓 解数 据 的 无 限 性 、 知 识 的 零散 性 与 用 户 需 求 无 法 满足 之 间 的 矛盾 ， 最 大 限度 地 提升 大 数据 的 价值 。 下 面 我 们 
分 析 一 下 目前 各 研究 领域 对 这 一 任务 的 处 理 方 法 。 


2.3.1 ”数据 库 视角 下 的 融合 


面 对 大 数据 ， 各 个 领域 都 开发 了 各 自 的 融合 方法 。 数 据 库 领 域 也 不 例外 ， 提 出 了 大 数据 集成 的 概念 和 实现 方法 中 包 ， 我们 将 
数据 库 领 域 的 这 种 融合 范式 记 为 BDF@DB， 具 体 集成 方式 如 图 2-2 所 示 。 











真 值 发 现 


冲突 解决 













记录 链接 


懂 式 对 齐 属性 匹配 黄 式 映射 











图 2-2 ”BDF@DB 方 式 


这 个 领域 的 数据 以 结构 化 数据 为 主 ， 有 统一 的 模式 可 循 ， 所 以 可 以 采用 中 介 模式 的 方法 (GAV、LAV) 以 自 项 向 下 的 方式 实 
现 集成 。 它 包括 3 个 主要 步骤 ， 即 模式 对 齐 、 记 录 链接 和 冲突 解决 。 模 式 对 齐 的 难点 在 于 模式 语义 存在 层 义 ， 记 录 链 接 的 难点 在 
于 实例 表示 存在 歧义 ， 而 冲突 解决 主要 面 对 的 是 数据 的 不 一 致 。 并 且 他 们 认为 大 数据 的 显著 特点 可 归纳 为 4V (Volume、 
Velocity、Variety、Veracity) ， 其 中 侧重 于 海量 性 和 高 速 性 的 处 理 B]， 大 数据 集成 所 需 的 关键 支撑 技术 概括 如 下 内 [5 


(1) 模式 对 齐 


由 于 数据 源 模式 的 异 构 性 ， 所 以 模式 对 齐 可 以 提高 集成 效率 。 模 式 对 齐 解 决 两 个 模式 元 素 之 间 的 一 致 性 问题 ， 主 要 是 利用 属 
性 名 称 、 类 型 和 值 的 相似 性 ， 以 及 属性 之 间 的 邻接 关系 寻找 源 模式 与 中 介 模式 的 对 应 天 系 ， 分 为 中 介 模 式 、 属 性 匹配 和 模式 映射 


三 步 完 成 /gj。 目 前 采用 演化 模型 、 概 率 模型 和 深度 匹配 方法 [8。 演 化 模型 主要 是 检测 异 式 映射 的 演化 ， 采 用 尽力 而 为 、 模 糊 回 
答 的 方式 ， 在 一 定 程度 上 解决 了 数据 多 样 性 和 高 速 性 带 来 的 问题 ; 概率 模型 将 中 介 模 式 按 语义 表示 成 源 属性 的 聚 类 ， 由 此 源 模式 
会 出 现 与 其 有 不 同 程度 对 应 关系 的 多 个 候选 中 介 模 式 ， 然 后 根据 查询 请 求 为 每 个 候选 中 介 模 式 分 配 一 个 备 选 概率 来 确定 最 佳 映 
射 ; 深度 匹配 方法 面向 概念 级 ， 基 于 潜在 的 语义 匹配 ， 而 不 仅仅 依赖 于 可 见 属性 。 


(2) 记录 链接 


记录 链接 是 从 数据 集中 识别 和 聚合 表示 现实 世界 中 同一 实体 的 记录 (也 称 实体 表象 ) ， 即 对 相似 度 达 到 一 定 阔 值 的 记录 做 聚 
类 操作 (也 称 共 指 识别 ) 。 在 大 数据 环境 下 ， 一 般 采 用 增 量 记录 链接 方法 PiI10]，[111， 它 可 以 解决 大 数据 的 相互 关联 对 实体 匹配 
的 局 部 决策 和 全 局 一 致 性 的 影响 ， 以 及 数据 更 新 可 以 及 时 弥补 聚 类 过 程 中 的 错误 聚 类 。 相 似 性 一 般 根据 领域 知识 设 定 匹配 规则 度 
量 ， 也 可 用 机 器 学 习 训练 分 类 器 的 方法 实现 ， 或 利用 编辑 距离 或 欧 氏 距离 计算 1，[1 引 。 由 于 大 数据 的 海量 性 ， 所 以 在 相似 性 计 
算 之 前 先 根据 实体 的 一 个 或 多 个 属性 值 将 输入 记录 划分 为 多 个 块 ， 进 行 块 内 比较 ， 提 高 链接 效率 [ 义 。 目 前 主要 是 借助 
MapReduce 并 行 分 块 03 和 引入 Meta-blocking 直 接 优化 分 块 [61，Meta-blocking 技 术 首先 将 信息 封装 在 块 分 配 集 并 构建 块 
图 ， 然 后 将 问题 转化 为 度量 图 中 边 的 权重 和 图 修剪 问题 ， 这 样 做 可 以 避免 重复 比较 、 多 余 比较 和 不 匹配 比较 。 因 此 ， 记 录 链 接 可 
以 由 分 块 、 相 似 度 计算 和 聚 类 三 个 步骤 实现 [1 7/]。 


(3) 冲突 解决 


冲突 是 指 模式 、 标 识 符 或 数据 中 存在 不 一 致 的 现象 。 模 式 冲突 由 数据 源 的 模式 异 构 引 起 ， 一 般 在 模式 对 齐 过 程 中 解决 ， 标 识 
冲突 主要 是 指 异 名 同 义 现 象 ， 数 据 冲突 主要 是 指 同一 属性 具有 多 个 不 同 值 ， 后 两 种 冲突 是 这 一 步骤 中 关注 的 重点 。 冲 突 解 决 一 般 
采用 识别 函数 ， 目 前 主要 分 真 值 发 现 、 真 实 性 评估 和 演化 建 模 三 个 步骤 [18]。 真 值 发 现 也 称 事实 (fact) 甄别 ， 即 从 所 有 冲突 的 
值 中 甄别 正确 的 值 〈 真 值 ) ， 真 值 可 以 不 止 一 个 ， 但 多 个 真 值 间 语 义 上 相同 [13]。 值 的 真实 性 评估 一 般 采 用 投票 的 策略 ， 并 在 此 
基础 上 进行 独立 性 衰减 ， 然 后 根据 值 的 置信 度 、 值 的 贝 叶 斯 后 验 概率 等 推理 得 到 真 值 结果 0I21]。 实 体 演化 主要 面向 的 是 随 着 时 
间 的 变化 ， 看 似 不 相似 的 实体 变 得 像 同 一 实体 ， 或 者 原本 表示 同一 实体 的 记录 因 某 些 属性 的 改变 而 变 得 不 太 像 同 一 实体 的 情况 。 
重点 是 对 演化 行为 的 建 模 ， 比 如 采用 时 间 衰 减 模型 捕获 实体 属性 值 在 时 间 跨 度 范围 内 改变 的 可 能 性 来 建 模 演化 行为 3， 但 只 捕 
获 了 属性 值 变 或 不 变 的 概率 ， 为 此 出 现 了 采用 属性 值 再 次 出 现 的 概率 建 模 演化 行为 3]， 这 种 方法 考虑 了 属性 值 来 回 变化 的 情况 
和 实体 内 / 间 的 演化 ， 但 未 考虑 属性 值 变化 的 复杂 模式 ， 如 语义 含义 。 因 此 又 出 现 了 考虑 各 种 数据 源 质量 和 值 的 多 样 性 因素 在 内 
的 演化 建 模 方法 4 
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2.3.2” 认 知 计算 和 和 人工 智 能 视角 下 的 融合 


认 知 计算 和 人 工 智能 领域 的 数据 有 一 大 部 分 是 文本 型 的 ， 要 将 该 领域 的 数据 进行 融合 ， 首 先 需 要 从 文本 中 识别 出 实体 、 实 体 
间 的 关系 ; 然后 再 根据 各 种 关联 关系 进行 融合 。 所 以 实体 链接 是 核心 ， 我 们 将 这 两 个 领域 的 融合 范式 记 为 BDF@C&A， 普 遍 做 
法 可 归纳 为 如 图 2-3 所 示 [1]。 
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图 2-3 ”BDF@C&A 方 式 
这 种 融合 方式 所 需要 的 关键 支撑 技术 有 本 体 对 齐 技 术 、 实 体 链 接 技术 和 知识 库 (KB) 自 适 应 发 展 技术 ,具体 介绍 如 下 。 
(1) 本 体 对 齐 


本 体 是 针对 特定 领域 中 的 概念 而 言 的 ， 位 于 知识 图 谱 的 模式 层 ， 是 一 种 概念 模板 ， 用 来 弥合 词汇 异 构 性 和 语义 歧义 的 间隙 ， 
是 知识 库 中 各 种 主体 进行 交流 的 基础 。 本 体 对 齐 主要 解决 本 体 不 一 致 问题 ， 需 要 识别 本 体 演化 ， 大 概 分 为 本 体 演 化 管理 、 不 一 致 
性 预防 与 处 理 和 对 齐 模板 挖掘 站。 本 体 演化 分 为 原子 变化 、 混 合 变化 和 复杂 变化 。 原 子 变 化 反映 单个 本 体 的 变化 ， 混 合 变化 反映 
本 体 之 间 的 影响 ， 复 杂 变 化 是 前 两 者 的 复合 体 。 有 时 原子 变化 也 叫 基本 变化 ， 混 合 变化 和 复杂 变化 统称 为 复杂 变化 ， 这 些 变化 通 
过 日 志和 本 体 版 本 差异 获得 ,一 般 在 概念 级 和 实例 级 检测 。 其 采用 图 论 方法 表示 本 体 变化 ， 引 入 SetPi 运 算 来 建 模 本 体 演化 过 
程 ， 采 用 一 致 性 约束 跟踪 本 体 的 全 局 演化 过 程 实现 可 溯源 ，Pellet 推 理 检测 不 一 致 性 。 但 是 所 有 这 些 方 法 只 量化 了 本 体 变化 ， 没 
有 给 出 不 一 致 性 问题 的 解决 方法 。 此 外 ， 为 了 加 快 本 体 对 章 的 速度 和 提高 对 齐 质量 ， 通 常会 根据 本 体 的 相似 性 、 使 用 频率 等 构建 
对 齐 模板 ， 比 如 为 频繁 错 配 的 本 体 建立 对 齐 模板 ， 采 用 多 重 相似 度 度量 与 本 体 树 结合 实现 多 策略 的 本 体 匹 配 。 


(2) 实体 链接 


实体 链接 的 关键 是 实体 识别 ， 主 要 是 从 文本 中 识别 相似 的 实体 和 消除 实体 歧义 ， 并 将 表示 同一 实体 的 实体 表象 聚 类 到 一 起 。 
相似 指 多 个 命名 实体 表象 可 对 应 到 一 个 真实 实体 (或 称 概念 ) ， 上 层 义 指 一 个 实体 表象 可 对 应 到 多 个 真实 实体 。 一 般 借 助 知识 库 完 
成 天 联 ， 通 常 可 采用 维基 百科 作为 参照 知识 库 。 这 种 关联 分 为 可 链接 和 不 可 链接 两 种 ， 不 可 链接 是 指 知 识 库 中 不 存在 对 应 实体 的 
情况 ， 否 则 为 可 链接 。 可 链接 关系 的 核心 是 在 知识 库 中 寻找 最 优 匹 配 实体 ， 通 过 产生 候选 对 象 并 对 其 排序 得 到 。 候 选 链接 的 产生 
可 以 通过 图 论 的 方法 或 借助 语义 知识 、 概 率 模型 ， 如 果 是 面向 社会 媒体 ， 则 可 以 利用 社交 媒体 的 特殊 句法 等 建 模 链接 关系 。 候 选 
链接 的 排序 按 影响 因素 可 以 分 为 与 实体 的 上 下 文 信息 无 天 和 实体 的 上 下 文 信息 有 关 两 种 。 不 可 链接 采用 设 定 阐 值 的 方法 判定 ,或 
者 采用 从 已 知 实体 的 特征 随机 抽样 得 到 的 未 知 实体 表示 的 方法 识别 实体 。 共 指 识别 则 是 要 将 多 个 指称 项 关联 到 同一 正确 的 实体 对 
象 。 共 指 识别 问题 可 以 看 作 分 类 问题 ， 也 可 以 看 作 聚 类 问题 ， 一 般 以 句法 分 析 为 基础 ， 结 合 词法 分 析 和 语义 分 析 完 成 。 句 法 分 析 
用 于 识别 出 现在 同一 句 话 的 实体 和 代词 ， 词 法 分 析 可 以 识别 语 料 中 的 第 三 人 称 代词 和 反 身 代词 等 回 指 性 代词 的 回 指 对 象 ， 语 义 分 
析 主 要 是 利用 语义 的 局 部 连贯 性 和 显著 性 跟踪 实体 。 


(3) KB 自 适 应 发 展 


为 了 使 知识 库 的 内 容 与 时 俱 进 ， 需 要 对 知识 图 谱 进 行 不 断 迭 代 更 新 ， 更 新 的 内 容 包括 概念 、 实 体 、 关 系 和 属性 值 。 大 多 是 从 
半 结 构 化 数据 或 者 无 结构 化 数据 中 抽取 得 到 的 ， 我 们 称 之 为 直接 知识 ， 也 有 从 现存 知识 库 、 关 系数 据 库 和 以 半 结 构 化 形式 存储 的 
历史 数据 (如 XML、JSON、CSV 等 ) 直接 转化 来 ， 我 们 称 之 为 转化 知识 。 转 化 知识 质量 较 高 ， 只 需要 进行 冲突 检测 、 消 除 郊 余 
即 可 扩充 到 知识 库 。 直 接 知识 分 布 零散 、 质 量 较 低 ， 需 要 先 抽取 ， 再 评估 。 其 中 ， 概 念 由 专家 评审 得 到 ， 而 实体 、 关 系 和 属性 值 
一 般 选 择 可 靠 数据 源 中 出 现 频 率 高 的 事实 和 属性 值 。 


对 于 直接 知识 中 的 实体 数据 主要 是 采用 命名 实体 识别 技术 借助 命名 实体 分 类 体系 和 统计 机 器 学 习 的 方法 获得 。 典 型 的 两 种 分 
类 体系 分 别 是 具有 150 种 实体 类 别 的 层次 结构 体系 和 具有 112 个 实体 分 类 的 类 Freebase 实 体 分 类 体系 。 离 散 (独立 ) 的 实体 可 利 
用 价值 不 大 ， 只 有 捕获 到 实体 之 间 的 关联 关系 或 者 实体 的 属性 信息 才能 发 挥 更 大 的 作用 。 关 系 可 以 建立 起 与 其 他 实体 的 联系 ， 实 
体 的 属性 信息 可 以 刻画 实体 的 特征 ， 属 性 可 以 看 作 一 种 名 词 关系 ,一般 转 化 为 关系 并 从 百科 类 网 站 和 非 结 构 化 的 公开 数据 中 抽 
取 。 关 系 抽 取 大 概 分 为 两 大 类 ， 分 别 是 基于 预定 义 关 系 类 型 的 抽取 方法 和 面向 开放 领域 的 抽取 方法 。 预 定义 关系 类 型 主要 是 通过 
人 工 构 造 语法 语义 规则 或 者 人 工 标注 训练 数据 集训 | 练 关 系 模式 。 面 向 开放 领域 的 抽取 方法 直接 利用 语 料 中 的 关系 词汇 自 监督 学 习 
实体 关系， 这 种 方法 的 准确 率 和 召回 率 较 低 。 目 前 只 抽取 二 元 关系 ， 不 涉及 高 阶 多 元 关系 和 隐 含 语义 关系 的 抽取 。 


得 到 了 扩充 的 内 容 ， 下 一 步 就 是 怎么 更 新 的 问题 ， 一 般 采 用 全 面 更 新 和 增 量 更 新 策略 FJ]。 顾 名 思 义 ， 全 面 更 新 需要 更 新 全 部 
数据 ， 而 增 量 更 新 则 只 更 新 新 增 知识 。 大 多 采用 增 量 更 新 方式 ， 因 为 它 资源 消耗 小 ， 但 是 它 需 要 预定 义 规则 等 ， 实 施 较为 困难 。 


KB 自 适 应 发 展 的 最 后 一 个 阶段 是 知识 推理 ， 目 前 主要 集中 在 从 已 有 的 实体 关系 中 推断 实体 间 的 新 关系 或 者 实体 的 新 属性 ， 
并 且 推 理 结果 只 是 为 了 应 用 ， 不 被 扩充 到 知识 库 。 通 常 采 用 基于 命题 的 一 阶 谓 词 逻 辑 推理 简单 关系 ; 采用 基于 对 象 的 描述 逻辑 推 
理 复杂 关系 ， 尤 其 适用 于 本 体 语言 (如 OWL) 推理 ; 还 可 以 利用 规则 语言 (如 Semantic Web Rule Language，SWRL) 提高 
本 体 语 言 的 表达 能 力 ， 如 辅助 描述 属性 合成 和 属性 值 转移 。 除 了 基于 逻辑 的 推理 ， 还 有 基于 图 的 推理 ， 经 典 的 方法 如 基于 神经 
络 / 张 量 的 方法 和 基于 路 径 排序 的 方法 。 其 中 路 径 排序 方法 将 实体 视 为 节点 、 关 系 或 属性 视 为 边 ， 从 源 节点 开始 沿 着 边 随机 游 走 
到 达 目 标 节点 ， 则 源 节 点 和 目标 节点 间 存 在 关系 。 


四 孟 小 峰 ， 杜 治 娟 .大 数据 融合 研究 ; 问题 与 挑战 [J] . 计算 机 研究 与 发 展 ，2016，02: 231-246 . 

DP] 重 小 峰 ， 杜 治 娟 .大 数据 融合 研究 : 问题 与 挑战 [J] . 计算 机 研究 与 发 展 ，2016，02: 231-246 . 

[3] Deshpande O, Lamba D S, Tourn M, et al. Building, Maintaining, and Using Knowledge Bases: A Repott ftom the 
Trenches [C] . Proceedings of the2013ACM SIGMOD International Conference on Management of Data (SIGMOD) . New York: 
ACM, 2013: 1209-1220 . 


2.3.3 ”两 种 融合 方式 的 对 比分 析 


为 了 了 解 不 同 领域 在 大 数据 融合 方法 上 的 异同 和 优 务 ， 我 们 根据 2.3.1 节 和 2.3.2 节 的 分 析 讨 论 ， 对 BDF@ DB 方式 和 
BDF@C&A 方 式 进行 比较 ， 如 图 2-4 所 示 。 
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图 2-4 BDF@DB 和 BDF@C&A 的 比较 


从 图 2-4 中 我 们 可 以 看 出 这 两 种 融合 方式 有 很 多 相似 之 处 ， 比 如 ， 两 者 都 采用 三 阶段 流水 线 架构 ， 融 合 对 象 都 是 原始 数据 ， 
关注 点 都 是 融合 多 源 数 据 并 提供 集成 化 知识 ， 都 分 三 步 完 成 。 此 外 ， 两 种 融合 范式 也 存在 着 很 强 的 互补 性 。 

(1) BDF@DB 与 BDF@C&A 的 对 应 关系 

两 种 融合 范式 都 采用 3 阶段 流水 线 架构 ， 其 中 每 个 步骤 都 有 对 应 关系 ， 有 具体 如 下 。 


模式 对 齐 与 本 体 对 齐 的 对 应 关系 : 它们 都 是 为 了 提高 融合 效率 而 提出 。 中 介 模 式 与 对 齐 模板 作用 相当 ， 都 是 为 了 寻找 数据 中 
共同 的 特点 ， 借 助 共同 点 简化 融合 的 复杂 性 ; 属性 匹配 和 模式 映射 与 不 一 致 性 预防 与 处 理 作用 相当 ， 都 是 为 了 消除 模式 的 语义 层 
义 。 只 有 本 体 对 齐 考虑 了 演化 性 ， 但 是 演化 性 是 大 数据 的 精髓 ， 并 且 大 数据 环境 下 本 体 的 异 构 问题 和 数据 源 的 异 构 性 更 加 明 
显 []， 所 以 ， 在 模式 级 别管 理 演化 是 大 数据 融合 的 必 备 技术 。 





1) 记录 链接 、 冲 突 解 决 与 实体 链接 的 对 应 关系 : 它们 用 于 解决 实体 表示 层 义 和 数据 不 一 致 ， 负 责 从 数据 中 识别 和 聚合 表示 
现实 世界 中 同一 对 象 的 潜在 实体 。 实 体 识别 的 本 质 是 相似 度 计 算 ， 共 指 识别 的 本 质 是 聚 类 ; 真 值 发 现 和 真实 性 评估 的 目的 是 消除 
实体 歧义 ; 分 块 技术 是 记录 链接 过 程 中 独 有 的 。 但 是 大 数据 规模 宏大， 每 次 处 理 都 面 对 全 部 数据 未 免 不 够 高 效 ， 如 果 能 分 块 处 
理 ， 效 果 可 能 会 更 好 ， 如 将 数据 划分 为 不 同 维度 和 粒度 为 大 数据 融合 提供 变 粒度 数据 资源 。 


2) 冲突 解决 与 KB 自 适应 更 新 的 对 应 关系 : 这 两 部 分 并 没有 特别 紧密 的 对 应 关系。 虽然 知识 获取 和 更 新 在 8BDF@ DB 中 也 是 
必 不 可 少 的 ， 但 是 BDF@DB 没 有 认为 它们 是 其 中 的 一 部 分 。 而 知识 推理 是 BDF@C&A 独 有 的 ， 知 识 推 理 是 KB 补 全 的 必 备 技术 ， 
对 于 理解 复杂 数据 非常 重要 ; 知识 获取 和 KB 自 适 应 更 新 注重 KB 的 扩充 和 维护 。 同 样 ， 演 化 建 模 也 是 冲突 解决 中 明确 指出 的 处 理 
步骤 ， 用 于 捕捉 实体 的 演化 行为 。 但 是 ， 演 化 性 是 大 数据 的 精髓 ， 关 系 中 也 存在 着 演化 特质 ， 所 以 关系 推理 和 关系 演化 结合 使 用 
效果 应 该 会 更 好 。 


(2) BDF@DB 与 BDF@C&A 的 共同 缺点 
从 上 述 分 析 来 看 ， 各 领域 的 研究 有 很 强 的 共性 ， 同 时 各 领域 的 研究 技术 也 有 很 强 的 互补 性 。 比 如 BDF@ DB 中 采用 的 分 块 技 


术 和 数据 级 别 的 演化 技术 ， 但 是 BDF@C&A 中 却 没有 ; BDF@C&A 中 关注 了 KB 的 发 展 和 维护 ， 并 对 获取 的 知识 进行 了 理解 。 同 
时 ， 面 对 大 数据 融合 的 需求 ， 现 有 融合 学 式 还 有 以 下 几 点 不 足 。 


1) 缺乏 变 粒度 数据 资源 的 自 适应 提供 : 从 2.2.1 节 的 例子 可 知 ， 当 下 数据 规模 安 大 ， 融 合 规模 庞大 ， 在 分 析 数 据 、 应 用 知识 
时 不 可 能 也 不 需要 采用 全 部 数据 。 所 以 ， 从 数据 使 用 角度 ， 数 据 需要 分 层 组 织 ， 方 便 提 供 变 粒度 数据 资源 ; 从 知识 应 用 角度 ， 数 
据 如 果 能 够 以 不 同 维度 、 不 同 粒度 的 形式 呈现 ， 则 可 以 提高 知识 理解 的 效果 。 目 前 融合 过 程 缺 乏 变 粒度 数据 资源 的 自 适 应 提供 。 


2) 融合 步骤 之 间 缺 乏 感应 : 现 有 融合 方法 采用 三 阶段 单 向 流水 线 架 构 ， 不 感知 彼此 的 相互 影响 。 这 有 两 方面 的 浆 端 : 前 一 
步骤 产生 的 错误 会 依次 向 后 续 步骤 传播 ， 这 种 错误 不 可 恢复 ; 后 续 步 骤 发 现 的 结果 不 能 向 前 反馈 ， 使 融合 效果 大 打折 扣 。 所 以 ， 
融合 步骤 之 间 应 该 相互 反馈 ， 相 互 启发 进行 。 


3) 缺乏 理解 和 揭示 数据 背后 的 深层 意义 : 已 有 的 融合 方法 关注 点 在 于 集成 多 源 数据 提供 统一 访问 和 集成 化 知识 ， 但 是 缺乏 
理解 ， 没 有 揭示 数据 背后 的 深层 意义 。 然 而 ， 大 数据 融合 中 知识 的 隐 含 性 ， 以 及 知识 的 理解 、 分 析 对 融合 大 有 帮助 。 比 如 ， 公 共 
安全 领域 要 想 做 到 预警 ， 就 需要 对 数据 进行 理解 、 归 纳 数 据 背 后 的 规律 。 所 以 ， 大 数据 融合 需要 数据 的 融合 与 知识 的 理解 相互 启 
发 进行 ， 不 断 优化 数据 本 身 和 知识 本 身 的 结构 与 内 涵 ， 而 非 单 向 流水 线 作 业 。 


4) 缺乏 数据 溯源 机 制 : 大 数据 具有 动态 演化 性 ， 并 且 数 据 融合 的 过 程 对 用 户 透 明 ， 缺 乏 可 解释 性 和 可 操作 性 ， 并 且 大 数据 
的 海量 性 和 动态 演化 加 大 了 错误 恢复 的 难度 ， 现 有 融合 方法 没有 考虑 这 一 点 。 因 此 ， 需 要 在 大 数据 融合 过 程 中 建立 可 溯源 机 制 。 


[1] Shvaiko P, Euzenat J. Ontology Matching: State of the Att and Future Challenges [JJ . Knowledge and Data Engineering, IEEE 


Transactions on, 2013, 25 (1) : 158-176. 


2.3.4 ”大 数据 融合 范式 


由 2.2 节 分 析 可 知 ， 大 数据 融合 的 任务 是 将 碎片 化 的 数据 相 联 系 、 将 分 散 的 数据 相 集 中 ， 形 成 表层 知识 ， 即 知识 资源 ， 进 而 
使 隐 性 知识 显 性 化 ， 使 表层 知识 上 升 为 普 适 机 理 。 从 而 在 数据 资源 、 知 识 资 源 与 用 户 之 间 建 立 有 效 的 联系 ， 缓 解数 据 的 无 限 性 、 
知识 的 零散 性 与 用 户 需 求 无 法 满足 之 间 的 矛盾 ， 最 大 限度 地 提升 大 数据 的 价值 。 所 以 ， 大 数据 融合 不 应 该 是 单纯 的 BDFQ@ DB 或 
者 BDF@C&A 融 合 过 程 ， 而 应 该 是 既 需 要 将 多 源 异 构 的 数据 集成 到 一 起 ， 还 需要 对 得 到 的 集成 化 数据 进行 进一步 理解 ， 更 重要 
的 是 需要 将 经 过 理解 的 知识 反馈 给 融合 过 程 。 由 此 可 以 认为 ， 大 数据 融合 过 程 是 一 个 数据 融合 与 知识 融合 相互 协同 完成 的 过 程 。 
其 中 数据 融合 迫切 需要 将 多 源 数据 动态 提取 、 整 合并 且 转 化 为 知识 资源 ， 为 知识 融合 葛 定 基础 。 而 知识 融合 需要 面向 需求 和 服 
务 ， 对 知识 和 知识 间 的 关系 进行 不 同 维度 和 粒度 的 理解 ， 使 知识 具有 可 理解 性 和 可 领悟 性 ， 进 而 方便 解释 客观 现象 。 所 以 我 们 将 
大 数据 融合 设计 成 动态 演化 的 数据 融合 与 多 维度 多 粒度 的 知识 融合 双环 驱动 的 融合 模式 ， 如 图 2-5 所 示 。 
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图 2-5 ”大 数据 融合 范式 


图 2-5 这 种 融合 方式 的 优势 在 于 通过 双环 协同 、 相 互 启 发 、 动 态 演化 地 逐步 探索 大 数据 融合 问题 ， 并 且 融 合 过 程 的 每 个 步骤 
都 是 大 数据 价值 的 一 次 提升 过 程 。 其 中 数据 融合 和 知识 融合 不 是 孤立 存在 的 。 知 识 融 合 中 获取 的 知识 可 以 作为 数据 融合 的 参考 因 
素 ， 辅 助 数据 融合 ;而 数据 融合 也 不 仅 是 为 知识 融合 提供 集成 化 数据 ， 其 中 的 一 些 方法 同样 对 知识 融合 有 借鉴 作用 。 这 也 是 双环 
驱动 的 独到 之 处 ， 它 体现 为 3 个 内 部 反馈 、2 个 跨 环 启发 和 4 个 全 局 驱动 枢纽 。 


3 个 内 部 反馈 是 指 : @@ 数 据 融 合 内 部 的 实体 识别 与 冲突 解决 ; @ 知 识 融合 内 部 的 关系 推演 与 深度 知识 发 现 ; @ 知 识 融 合 内 部 
的 知识 建 模 与 普 适 机 理 凝 练 。 这 三 个 反馈 中 后 者 的 处 理 结果 应 该 反馈 给 前 者 ， 作 为 前 者 的 决策 因素 。 


2 个 跨 环 启发 是 指 : @@ 冲 突 解 决 与 天 系 推演 之 间 的 跨 环 司 发 ， 冲 突 解决 方法 可 以 帮助 解决 关系 推演 中 的 冲突 问题 ， 推 演出 的 
关系 可 以 辅助 解决 数据 融合 过 程 中 的 冲突 问题 ; @ 实 体 识别 和 深度 知识 发 现 ， 经 过 识别 的 实体 可 以 准确 地 发 现 深度 知识 ， 发 现 的 
深度 知识 可 以 作为 辅助 知识 帮助 识别 实体 。 


4 个 全 局 驱动 枢纽 是 指 : @@ 用 于 精细 化 融合 并 提供 使 用 接口 的 智能 晶 格 ; @ 用 于 实现 跨 媒体 、 跨 领域 的 知识 学 习 和 跨 学 科 、 
跨行 业 体系 的 知识 复 用 的 迁移 学 习 ; @ 提 高 可 解释 性 和 可 操作 性 的 数据 溯源 ;@ 对 于 大 数据 动态 演化 、 海 量 性 和 高 速 性 的 处 理 ， 
简称 D&2V (Dynamic，Volume，Velocity) 处 理 ， 它 们 保证 了 大 数据 融合 的 与 时 俱 进 和 可 理解 性 。 


2.4 数据 融合 技术 


数据 融合 需要 用 动态 的 方式 统一 不 同 的 数据 源 ， 将 离散 的 数据 转化 为 统一 的 知识 资源 。 另 外 ， 大 数据 的 关联 性 使 得 融合 步骤 
之 间 相 互 影响 ， 传 统 的 流水 线 式 融合 不 再 满足 现 有 融合 需求 。 面 对 新 的 融合 需求 ， 反 馈 迭 代 机 制 显得 极为 重要 。 为 此 ， 我 们 给 
数据 融合 的 新 的 实现 步骤 : @@ 对 齐 本 体 、 模 式 ， 加 速 融合 效率 ;@ 识 别 相同 实体 、 链 接 关 联 实体 ; @ 杜 别 真 伪 、 合 并 冲突 数据 ， 
并 将 处 理 结果 反馈 给 实体 识别 阶段 ， 提 高 识别 效率 ; @ 动 态 更 新 知识 库 、 保 持 知 识 的 与 时 俱 进 。 


2.4.1 模式 /本 体 对 齐 


模式 /本 体 对 齐 是 大 数据 融合 的 前 提 ， 用 于 提高 融合 效率 ， 重 点 解决 对 齐 演化 引起 的 不 一 致 性 。 大 数据 的 海量 性 和 演化 性 导 
致 事后 补救 难度 大 ， 所 以 需要 采用 “以 防 为 主 ， 防 治 结合 ”的 策略 。 此 外 ， 还 可 以 变相 思维 ， 利 用 模板 [在 捕捉 经 验方 面 的 优 
势 为 频繁 错 配 的 本 体 建 立 对 齐 模板 以 便 重复 使 有用。 所以， 我 们 认为 本 体 演 化 对 齐 应 该 分 三 步 完 成 ， 即 本 体 的 演化 管理 、 不 一 致 性 
的 预防 和 补救 、 对 齐 模板 的 挖掘 。 本 体 演化 重点 需要 关注 原子 本 体 的 变化 和 摘 述 ， 而 本 体 演化 的 形式 化 方法 可 以 借鉴 类 型 化 的 图 
语法 (Typed Graph Grammars，TGG) 和 代数 图 变换 (Algebraic Graph Transformations，AGT) 。TGG 是 一 种 数学 形式 
体系 ， 用 于 表达 和 管理 图 。 


此 外 ， 本 体 依赖 于 实体 和 合作 方式 ， 当 领域 表示 发 生 演变 频繁 或 有 新 的 要 求 必须 考虑 时 ， 本 体 也 会 频繁 和 连续 地 变化 ， 并 且 
通常 本 体 较 大 且 构 建 代价 大 。 因 此 ， 本 体 必须 能 够 适应 演化 、 修 改 和 改进 ， 从 而 保持 本 体 一 致 。 然 而 ， 这 个 过 程 是 极 具 挑 战 性 
的 ， 因 为 它 往往 很 难 理解 本 体 变化 部 分 所 受 的 影响 。 所 以 ， 需 要 对 本 体 进行 建 模 ， 那 么 也 就 不 可 避免 地 涉及 了 本 体 语言 ， 通 用 的 
本 体 语言 是 Ontology Web Language (OWLB]) ， 它 能 有 效 地 捕捉 静态 语义 但 不 能 满足 本 体 实体 之 间 交 互 变化 的 一 致 性 检 
查 ， 因 此 不 足以 用 于 形式 化 变化 。 目 前 文献 大 多 是 对 本 体 变 化 的 量化 ， 并 没有 对 不 一 致 性 进行 充分 研究 。 即 便 给 出 了 解决 不 一 致 
性 问题 的 方法 ， 也 是 不 一 致 发 生 以 后 的 解决 方法 ， 需 要 执行 变化 并 使 用 额外 的 资源 监测 本 体 的 一 致 性 ， 因 此 缺乏 预防 措施 来 避免 
不 一 致 发 生 。 


[1] Clark P. Knowledge Pattetns [J] . Knowledge Engineering: Practice and Patterns, 2008: 1-3. 
[2] Newell A. The Knowledge Level [J|] . Artificial Intelligence, 1982, 18 (1) : 87-127. 


B] OWL: WWW. w3.0rg/ TR/owl-ref。 


2.4.2 ”实体 链接 


实体 链接 是 数据 融合 的 基础 ，BDF@DB 中 实体 以 记录 的 形式 表示 ， 实 体 链接 也 即 记录 链接 ， 实 现 步骤 包括 分 块 、 两 两 匹配 
和 聚 类 ; BDF@C&A 中 实体 链接 的 实现 步骤 包括 实体 识别 、 实 体 消 上 层 和 共 指 识别 。 由 2.3.3 节 的 分 析 可 知 实体 识别 与 两 两 匹配 、 
共 指 识别 与 聚 类 作用 相当 ; 而 实体 消 层 包 含 在 BDF@ DB 中 的 冲突 解决 中 。 所 以 我 们 将 大 数据 融合 中 的 实体 链接 步骤 分 为 分 块 、 
实体 识别 和 共 指 识别 。 它 的 不 同 之 处 在 于 如 下 几 方 面 。 


第 一 ， 实 体 的 属性 特征 以 及 所 在 的 语 境 信息 、 冲 突 实体 的 解决 结果 和 共 指 识别 结果 都 可 能 对 实体 识别 产生 影响 。 但 是 现 有 的 
实体 链接 基本 是 实体 识别 、 冲 突 解 决 (重点 是 实体 消 歧 ) 、 共 指 识别 串 行 化 执行 ， 不 感知 彼此 的 相互 影响 。 这 样 做 有 3 方面 的 次 
端 : 实体 识别 过 程 中 产生 的 错误 会 依次 向 后 续 过 程 传播 ， 这 种 错误 不 可 恢复 ; 共 指 识别 和 冲突 解决 的 结果 不 能 向 前 反馈 ; 实体 识 
别 过 程 和 冲突 解决 过 程 可 能 会 产生 不 一 致 的 输出 。 但 实际 中 这 三 者 相互 影响 ， 前 者 为 后 两 者 提供 更 多 的 特征 ， 后 两 者 为 前 者 提供 
已 消 歧 的 链接 信息 辅助 聚 类 。 所 以 ， 识 别 实体 应 该 是 实体 识别 、 冲 突 解决 、 共 指 识别 三 者 迭代 优化 、 逐 步 求 精 的 过 程 。 


第 二 ， 实 体 之 间 的 语义 关联 性 较 强 ， 并 且 人 存在 演化 性 ， 这 对 共 指 识别 提出 了 挑战 ， 已 有 方法 没有 考虑 可 靠 性 和 更 新 程度 、 局 
部 决策 对 与 之 关联 表象 的 影响 ， 并 且 直 接 面向 动态 数据 ， 演 化 模型 依赖 于 训练 数据 集 和 演化 证 据 的 质量 ， 匹 配 精度 高 ， 但 时 间 代 
价 不 是 大 数据 能 够 承受 的 。 


三 ， 需 要 识别 新 实体 和 新 关系 ， 这 是 知识 库 扩 充 的 必要 手段 。 此 外 ， 推 演出 的 新 知识 、 发 现 的 深度 知识 ， 以 及 得 到 的 普 适 
机 理 都 有 可 能 对 实体 识别 起 到 启发 作用 ， 所 以 ， 反 馈 结果 极为 重要 ， 所 以 ， 大 数据 中 的 实体 识别 不 仅 需 要 与 数据 融合 中 的 冲突 解 
决 、 共 指 识别 形成 内 部 反馈 迭代 优化 ， 还 需要 与 知识 融合 中 的 深度 知识 发 现形 成 跨 环 启发 。 


第 四 ， 复杂 实体 关联 方法 在 适用 范围 、 准 确 率 等 方面 都 存在 一 定 的 不 足 ， 主 要 挑战 性 在 于 : 非 结构 化 数据 中 一 般 不 显 式 包含 
属性 名 ， 其 实体 属性 也 不 一 定 都 完全 出 现在 结构 化 数据 中 ， 反 之 亦 然 。 并 且 ， 两 类 实体 之 间 是 需要 进行 近似 匹配 还 是 精确 匹配 也 
需要 区 别 ; 新 实体 的 发 现 也 是 目前 的 一 大 难点 ， 关 键 在 于 相似 性 判定 阔 值 的 确定 没有 有 效 的 解决 办 法 。 


第 五 ， 大 数据 融合 向 短文 本 、 跨 语言 、 跨 领域 融合 迈进 ， 所 以 需要 相关 实体 跨 语言 、 跨 文档 的 天 联 ， 目 前 研究 成 果 不 多 。 其 
中 ， 未 知 链接 的 处 理 对 于 跨 语言 、 跨 文档 的 链接 更 加 复杂 ; 实体 链接 中 存在 隐喻 情况 ， 一 个 实体 在 多 个 文档 中 出 现 的 情况 ， 提 及 
的 边界 重 考 的 情况 ， 获 套 提 及 、 刻 套 链接 的 情况 ， 以 及 实体 的 相关 性 ， 这 些 情 况 都 没有 得 到 有 效 的 解决 ， 都 是 目前 亚 待 解决 的 问 


日 


太 人 。 


2.4.3 ”冲突 解决 


冲突 解决 是 大 数据 融合 的 必要 条 件 ， 它 的 第 一 要 务 是 消 上 疏 。 大 数据 的 真实 性 和 演化 性 是 引发 冲突 的 导 火 索 ， 如 数据 本 身 的 新 
鲜 度 和 贡献 给 特定 查询 的 价值 量 等 ， 这 就 引发 了 新 鲜 度 和 价值 量 不 同 的 多 真 值 问题 ， 需 要 评估 信息 质量 ,合并 不 确定 性 信息 。 此 
外 ， 知 识 融 合 中 推演 出 的 关系 也 可 能 对 其 起 到 启发 作用 ， 需 要 将 这 种 新 知识 动态 地 引入 冲突 解决 过 程 ， 并 保持 这 种 知识 的 演化 。 
所 以 ， 冲 突 解 决 应 该 经 历 真 假 甄别 、 不 确定 性 合并 和 演化 建 模 三 个 步骤 。 此 外 ， 所 有 冲突 解决 技术 都 有 一 个 假定 前 提 ， 即 假定 模 
式 对 齐 和 实体 识别 已 完成 ， 并 且 数 据 也 已 经 对 齐 。 但 这 个 假设 在 大 数据 环境 下 过 于 理想 化 ， 所 以 冲突 解决 需要 在 数据 融合 内 部 与 


实体 链接 形成 反馈 。 


目前 ， 冲 突 解决 的 侧重 点 在 于 知识 的 真 假 杠 别 ， 并 假设 假 值 服从 均匀 分 布 ， 不 匹配 即 为 完全 不 同 。 但 这 个 假设 在 现实 中 过 于 
绝对 ， 以 至 于 已 有 方法 不 能 很 好 地 处 理 错误 产生 的 不 确定 性 。 此 外 ， 消 歧 方法 依赖 于 实际 参照 数据 的 可 用 性 (如 数据 标注 ) ， 参 
照 数据 一 般 源 于 维基 百科 ， 缺 乏 领域 性 和 针对 性 ， 这 使 得 实用 性 变 窒 。 对 于 其 他 领域 ， 如 新 闻 ， 仅 有 一 小 部 分 标注 样本 可 用 ， 所 
以 必须 采取 超越 维基 百科 的 消 歧 策略 。 


对 于 不 确定 因素 ， 主 要 难点 在 于 针对 新 鲜 度 和 价值 量 不 同 的 多 真 值 问 题 ， 如 何 设 计 质 量 评估 消 数 。 演 化 行为 也 是 引起 不 确定 
性 的 一 个 因素 ， 对 于 演化 建 模 ， 虽 然 现 有 方法 捕获 了 实体 属性 值 的 改变 ， 但 未 考虑 属性 值 变化 的 复杂 模式 ， 如 用 属性 的 再 现 概率 
建 模 实体 演化 ， 当 一 个 属性 值 在 后 续 时 间 内 不 再 出 现 ， 则 所 有 情况 下 记录 表示 同一 实体 的 可 能 性 相同 ， 但 这 个 说 法 与 实际 相悖 。 
如 一 个 讲师 在 两 年 后 成 为 副教授 是 可 能 的 ， 但 一 年 后 变 为 助教 的 可 能 性 是 不 存在 的 ， 明 显 前 一 种 表示 同一 实体 的 可 能 性 远大 于 后 
一 种 ， 而 现 有 方法 则 认为 这 种 概率 相同 。 这 说 明 ， 建 模 变化 需要 考虑 属性 本 身 的 变化 模式 ， 如 语义 相关 度 等 。 


2.4.4 知识 库 自 适 应 发 展 


知识 库 是 数据 融合 的 结果 ， 也 是 大 数据 融合 的 中 转 站 。 随 着 数据 的 产生 、 信 息 的 传播 ， 会 有 源源 不 断 的 知识 扩充 到 知识 库 。 
知识 库 包 含 三 种 知识 ， 即 从 数据 源 抽取 的 直接 知识 ， 由 现存 知识 库 、 关 系数 据 库 和 以 半 结 构 化 形式 存储 的 历史 数据 (如 XML、 
JSON、CSV 等 ) 直接 转化 来 的 转化 知识 ， 以 及 知识 融合 反馈 来 的 深度 知识 。 知 识 库 的 生命 周期 分 为 3 个 阶段 : 第 1 阶段 是 自 适应 
抽取 策略 抽取 直接 知识 构建 基本 知识 库 或 扩充 知识 库 ; 第 2 阶段 用 转化 知识 和 深度 知识 通过 自动 化 增 量 更 新 扩展 知识 库 ; 第 3 阶 
段 定位 事实 和 溯源 知识 库 。 


自 适 应 抽取 首先 需要 设 定语 法 -语义 的 抽取 模式 ， 然 后 采用 自 调 整 和 反馈 调整 调整 抽取 策略 。 自 调整 通常 采用 模糊 本 体 技术 
识别 并 以 概率 方式 检测 可 能 性 ， 反 馈 调 整 主要 是 借助 抽取 结果 信息 以 及 知识 融合 过 程 中 反馈 回来 的 信息 调整 抽取 模式 。 对 于 更 新 
策略 ， 目 前 大 多 采用 人 工 干 预 的 增 量 更 新 方法 ， 但 是 随 着 知识 库 的 不 断 积 累 ， 依 靠 人 工 制定 更 新 规则 和 逐条 检测 将 不 能 满足 需 
求 ， 所 以 需要 自动 化 、 批 量 更 新 (比如 子 图 到 子 图 的 更 新 策略 ) ， 这 样 就 必须 确保 自动 化 更 新 的 有 效 性 。 此 外 知识 库 的 自 适 应 发 
展 需要 动态 的 方式 统一 不 同 的 数据 源 ， 这 个 过 程 对 用 户 透 明 ， 缺 乏 可 解释 性 和 可 操作 性 ， 并 且 大 数据 的 海量 性 和 动态 演化 加 大 了 
错误 恢复 的 难度 ， 所 以 需要 建立 知识 库 的 可 溯源 机 制 。 


对 于 新 获取 的 3 种 知识 所 包含 的 实体 、 关 系 以 及 实体 属性 信息 中 可 能 包含 大 量 匈 余 信 息 和 错误 信息 ， 所 以 需要 通过 实体 链接 
技术 和 冲突 解决 技术 对 实例 和 关系 进行 统一 化 处 理 以 减少 数据 元 余 ; 并 且 直 接 抽 取 的 天 系 都 是 扁平 化 的 关系 ， 缺 乏 层次 性 和 逻辑 
性 ， 需 要 对 概念 表达 方式 进行 统一 化 处 理 ， 并 将 新 本 体 融 入 本 体 库 。3 种 知识 中 转化 知识 属于 高 质量 知识 ， 可 以 使 用 现成 的 转换 
工具 直接 转换 ;而 直接 知识 质量 较 低 ， 还 需要 对 齐 以 进行 验证 和 评估 ， 以 确保 知识 库 内 容 的 一 致 性 和 准确 性 ， 通 常 采用 的 方法 是 
在 评估 过 程 中 为 新 加 入 的 知识 赋予 可 信 度 值 ， 据 此 进行 知识 的 过 滤 和 融合 。 


2.5 ”知识 融合 技术 


知识 融合 是 将 数据 融合 阶段 获得 的 笼统 的 知识 转化 为 可 领悟 知识 ， 面 向 需求 提供 知识 服务 。 它 需要 挖掘 隐 仿 知识， 寻找 潜在 
知识 关联 ， 进 而 实现 知识 的 深层 次 理解 ， 以 便 更 好 地 解释 数据 。 为 此 ， 我 们 给 出 知识 融合 的 实现 步骤 : Q@ 对 知识 进行 抽象 和 建 
模 ， 为 后 续 知 识 融合 提供 方便 ; @ 通 过 对 表层 知识 的 推理 、 理 解 ， 得 出 显 式 深度 知识 ， 如 通过 多 路 径 关 系 推 理 得 到 间接 知识 ; @ 


通过 推理 、 归 纳 等 方法 发 现 隐 式 深度 知识 ， 如 类 比 关 系 等 ; @ 对 知识 资源 、 深 度 知识 等 剖析 、 解 释 、 归 纳 出 普 适 机 理 。 


2.5.1 知识 抽象 与 建 模 


知识 抽象 与 建 模 是 指 根据 数据 的 分 布 规律 归纳 出 数据 的 结构 规则 进而 抽象 出 数据 之 间 的 关联 模式 来 表示 知识 的 过 程 。 知 识 可 
以 以 非 结构 化 的 XML、JSON、CSV 形 式 表示 ， 也 可 以 直接 用 关系 数据 库 形式 表示 。 但 是 目前 主流 表示 方式 是 RDF 一 一 < 主语 ， 
三 元 组 ， 其 中 主语 是 实体 ， 谓 语 是 关系， 宾语 既 可 以 是 实体 也 可 以 是 实体 的 属性 值 。 知 识 图 谱 通 常 建 模 为 RDF 
图 或 者 嵌入 表示 为 低 维 向 量 空间 。 它 的 难点 在 于 数据 关系 多 粒度 并 存 、 相 互 谋 套 、 复 杂 关 联 ， 面 对 大 数据 需要 精简 表达 。 








0 
谓语 ， 宾 语 > 


RDF 图 是 指 由 RDF 三 元 组 按照 关联 关系 链接 成 的 图 ， 在 RDF 知 识 图 谱 中 ， 相 似 的 实体 很 可 能 相关 ， 相 邻 的 节点 或 者 有 路 径 相 
连 的 节点 很 可 能 相似 ， 一 般 采 用 局 部 相似 、 全 局 相似 和 准 局 部 相似 方法 。 局 部 相似 性 计算 只 依赖 于 直接 链接 的 实体 ， 不 能 模拟 大 
范围 的 依赖 关系 。 全 局 相似 性 考虑 了 所 有 路 径 上 的 实体 ， 预 测 性 能 比 局 部 性 相似 方法 好 ， 但 计算 更 昂贵 。 准 局 部 相似 方法 通过 路 
径 实体 的 相似 度 和 有 限 长 度 的 随机 游 走 平衡 了 预测 精度 和 计算 复杂 度 。RDF 图 既 不 损失 语义 关联 又 能 很 好 地 表示 知识 ， 它 的 一 个 
难点 是 需要 对 RDF 图 携带 的 三 种 信息 一 描述 性 属性 、 语 义 天 系 ， 以 及 两 者 兼顾 的 语义 图 结构 进行 概念 描述 ， 这 一 步 对 后 续 深 
度 知 识 发 现 特别 重要 。 


嵌入 表示 将 实体 和 关系 都 表示 为 低 维 向 量 ， 并 且 定 义 一 个 评分 函数 来 确定 元 组 的 合理 性 ， 主 要 模型 有 双 线 性 模型 (复杂 度 较 
高 ， 不 适合 Web 规 模 的 知识 图 谱 ) 、 多 层 感知 模型 和 潜在 距离 模型 。 多 层 感知 模型 参数 复杂 ， 潜 在 距离 模型 将 实体 和 关系 表示 
为 高 斯 分 布 或 映射 为 超 平面 中 的 点 。 采 用 嵌入 表示 的 目的 主要 是 为 了 缓解 数据 稀 琉 ， 建 立 统一 的 语义 表示 空间 ， 实 现 知 识 迁移 ， 
它 的 挑战 性 在 于 缺乏 对 各 语言 单位 统一 的 语义 表示 与 分 析 手 段 。 嵌 入 表示 和 图 特征 模型 互补 ， 前 者 擅长 通过 引入 新 的 潜在 变量 建 
模 全 局 天 系 模式 ， 并 且 当 元 组 可 以 用 少量 的 隐 变 量 解释 时 计算 效率 很 高 ;后 者 擅长 建 模 局 部 和 准 局 部 图 模式 ， 并 且 当 元 组 可 以 由 
邻居 实体 或 与 其 有 较 短路 径 的 实体 解释 时 计算 效率 很 高 。 





2.5.2 ”关系 推演 


关系 推演 可 以 看 作 显 式 深度 知识 发 现 ， 包 括 二 元 关系 推理 、 多 路 径 关 系 推 理 和 演化 关系 推理 。 二 元 关系 推理 是 指 根据 历史 知 
识 预 测 两 个 实体 之 间 可 能 存在 的 关联 关系， 或 者 给 定 一 个 实体 和 一 种 关系， 预测 与 之 对 应 的 实体 。 这 种 预测 的 关键 在 于 实体 和 关 
系 的 表示 。 多 路 径 关系 推理 的 难点 在 于 组 合 语义 模型 的 设计 和 推理 关系 的 可 用 性 确定 ， 与 知识 表示 形式 密切 相关 。 关 系 演化 建 模 
中 的 关系 可 以 是 属性 关系 ， 也 可 以 是 语义 关系， 所 以 需要 对 天 系 变化 进行 细 粒 度 的 分 析 。 此 外 ， 发 现 的 深度 知识 对 关系 推演 具有 
参考 价值 ， 所 以 还 需要 考虑 深度 知识 发 现 反 馈 的 结果 。 


关系 推演 方面 目前 关注 的 大 多 是 直接 关系 和 多 路 径 关系 的 推理 ， 缺 乏 对 关系 之 间 复 杂 模 式 的 考虑 ， 如 自动 通过 元 组 < 人 ， 离 
不 开 ， 空 气 > 推 断 出 元 组 < 鱼 ， 离 不 开 ， 水 > 这 种 类 比 关 系 。 关 系 推演 还 借助 于 知识 表示 ， 目 前 有 骨 入 表示 和 RDF 图 两 种 表示 。 
嵌入 表示 方法 存在 复杂 关系 表示 与 系统 可 扩展 性 不 能 兼顾 的 问题 。 采 用 RDF 图 表示 时 ， 传 统 的 图 相似 性 计算 只 是 考虑 到 图 结构 的 
相似 性 ， 典 型 的 如 图 结构 的 编辑 距离 和 最 小 公共 子 图 等 ， 显 然 这 种 量度 不 能 很 好 地 反映 语义 上 的 相似 性 。 有 时 实体 间 图 结构 的 编 
辑 距离 比较 大 ， 但 是 它们 的 语义 等 价 。 所 以 采用 RDF 图 表示 时 要 重点 考虑 语义 关系 。 无 论 采 用 哪 种 表示 形式 ， 都 需要 考虑 推理 关 
系 的 可 信 性 ， 自 动 过 滤 无 意义 的 推理 关系 。 


此 外 ， 大 数据 融合 是 跨 领域 、 跨 语言 、 跨 数据 源 的 大 融合 ， 不 同 领域 、 语 境 和 数据 源 之 间 的 数据 也 可 能 是 有 关联 的 ， 所 以 ， 
关系 推理 也 不 应 该 限定 在 单一 知识 库 内 ， 跨 领域 、 跨 语言 、 跨 数据 源 的 知识 推理 是 大 数据 融合 的 一 大 趋势 。 并 且 关 系 推演 的 结果 


对 数据 融合 、 深 度 知 识 发 现 和 普 适 机 理 形成 至 关 重要 ， 应 该 将 推理 结果 扩充 到 知识 库 。 这 样 做 是 具有 挑战 性 的 ， 首 先 推理 结果 准 
确 性 低 、 宛 余 度 高 ， 在 将 其 加 入 知识 库 之 前 ， 通 常 需要 进行 可 证 明 性 检测 和 冲突 检测 来 避免 知识 库 中 知识 的 矛盾 和 宛 余 。 其 次 ， 
这 样 做 会 导致 融合 的 规模 不 断 增加 ， 所 以 需要 合理 控制 融合 规模 ， 保 证 融合 结果 的 可 用 性 。 


2.5.3 ”深度 知识 友 现 


深度 知识 包括 高 阶 多 元 关系 和 隐 含 语义 关系 。 深 度 知识 发 现 对 知识 融合 非常 重要 ， 尤 其 是 隐 式 深度 知识 发 现 ， 它 包含 以 下 3 
种 : @@ 天 系 型 深度 知识 ， 例 如 类 比 关 系 、 上 下 位 关系 、 因 果 关 系 、 正 / 负 相 关 关 系 、 频 繁 /顺序 共 现 关 系 和 序列 天 系 等 ， 例 如 ， 人 
离 不 开 空气 与 鱼 离 不 开水 这 种 类 比 关 系 ; @ 数 据 分 布 型 深度 知识 ， 即 知识 服从 某 些 数据 分 布 ， 如 高 斯 分 布 、 震 律 分 布 和 长 尾 分 布 
等 ， 例 如 ， 当 关注 数 少 于 105 时 社交 网 络 中 节点 的 度 分 布 服从 指数 为 2.267 的 过 律 分 布 ; @ 性 质 型 深度 知识 ， 即 知识 具有 某 种 性 
质 ， 如 局 部 封闭 世界 、 长 城 记 忆 和 无 标 度 等 ， 常 见 的 如 知识 图 谱 建 模 可 假设 满足 局 部 封闭 世界 。 


深度 知识 一 般 是 通过 领域 理论 ， 运 用 数学 、 物 理 等 工具 ， 进 行 理论 建 模 、 解 析 、 逻 辑 演绎 、 公 式 推 演 和 证 明 获 得 的 ， 如 采用 
统计 分 析 和 深度 学 习 的 方法 。 统 计 分 析 用 于 发 现 微观 规律 ( 待 验 证 的 深度 知识 ) 的 推论 ， 深 度 学 习 用 于 对 推论 建 模 和 验证 。 深 度 
学 习 根 源 于 类 神经 网 络 (Artificial Neural Network) 模型 ， 一 般 步骤 为 设 定好 类 神经 网 络 架 构 (定义 函数 集 ) ， 制 定 出 学 习 目 
标 (定义 函数 的 拟 合 度 ) ， 开 始 学 习 (选择 最 佳 函 数 ) 。 深 度 知 识 发 现 的 难点 在 于 有 记忆 力 的 深度 学 习 模 型 的 构建 。 此 外 ， 在 实 
际 应 用 中 ， 知 识 库 的 构建 者 为 保证 知识 库 应 用 的 时 效 性 ， 通 常 仪 保留 部 分 与 业务 密切 相关 的 知识 ， 而 放弃 其 发 现 的 深度 知识 ， 但 
是 发 现 的 深度 知识 对 关系 推演 具有 参考 价值 ， 对 数据 融合 具有 启发 作用 ， 所 以 有 必要 将 已 经 获得 的 深度 知识 融入 知识 库 。 


2.5.4” 普 适 机 理 的 剖析 和 归纳 


目前 知识 融合 依然 缺乏 对 知识 资源 中 存在 关系 的 普 适 化 。 为 此 ， 我 们 首先 要 从 理性 或 直觉 中 建立 问题 的 模型 ， 通 过 对 数据 呈 
现 的 现象 进行 概括 性 描述 或 者 归纳 学 习 得 到 普 适 模型 ， 然 后 将 模型 与 数据 结合 提供 适当 的 泛 化 能 力 ， 如 “Google 大 脑 ” 可 以 通 
过 深度 学 习 无 监督 地 辨别 任何 猫 。 另 外 ， 人 的 智力 能 透 过 现象 看 到 本 质 ， 只 有 发 现 大 数据 所 呈现 出 的 普遍 现象 背后 的 普 适 原理 才 
能 对 客观 世界 产生 更 大 的 影响 。 比 如 ， 网 络 在 宏观 上 具有 窜 律 分 布 现 象 ， 它 们 背后 的 普 适 原理 是 增长 和 择优 机 制 在 复杂 网 络 中 的 
自 组 织 演化 。 所 以 可 以 将 其 作为 知识 建 模 、 深 度 知识 发 现 和 关系 推演 的 一 个 参考 因素 ， 从 而 提高 融合 效率 。 


普 适 机 理 往往 是 通过 微观 规律 剖析 宏观 现象 得 到 的 ， 一 般 做 法 是 首先 采用 统计 、 物 理 方 法 从 大 量 个 例 中 收集 和 组 织 经 验 事 
实 、 发 现 规律 ， 剖 析 内 在 原理 、 归 纳 宏观 现象 ， 提 出 普 适 性 假设 ; 然后 利用 领域 理论 ， 如 运用 数学 、 物 理 等 工具 进行 理论 建 模 形 
成 可 测试 推论 ; 接着 通过 仿真 模拟 的 方式 验证 推论 、 评 佑 假设 和 模型 ， 如 果 假 设 和 机 理 不 能 够 很 好 地 解释 实验 中 观测 到 的 现象 
(实验 中 的 现象 也 要 能 够 与 现实 观测 相 吻 合 ) ， 则 需要 进一步 修正 假设 和 模型 直到 可 以 很 好 解释 为 止 ， 最 后 提出 规律 并 进一步 接 
受 实 证 数据 的 检验 ， 直 至 得 到 公认 为 止 。 这 样 经 过 实证 验证 的 普 适 机 理 就 可 以 采用 迁移 学 习 ( 详 见 2.6.2 节 ) 的 方法 将 普 适 机 理 
用 于 实际 中 。 


2.6 ”大 效 据 融 合 的 驱动 枢纽 


数据 融合 与 知识 融合 是 一 个 相互 启发 、 相 互 协调 、 逐 步 融 合 的 过 程 ， 两 者 之 间 需 要 一 个 纽带 进行 衔接 ， 我 们 把 这 个 衔接 纽带 


叫做 智能 晶 格 。 此 外 ， 数 据 融 合 与 知识 融合 还 受 一 些 共同 因素 的 影响 ， 如 动态 演化 性 、 海 量 性 和 高 速 性 ， 这 些 因 素 直接 影响 融合 
技术 。 


2.6.1 智能 晶 格 


智能 晶 格 的 本 质 功能 是 用 于 桥接 数据 融合 和 知识 融合 ， 并 对 外 提供 使 用 接口 ， 它 应 具备 两 个 功能 。 首 先 ， 它 用 于 优化 知识 的 
结构 ， 方 便 获 取 知 识 库 不 同 层次 、 不 同 粒度 的 天 系数 量 和 知识 结构 ， 可 以 完成 高 效 的 数据 人 存储、 更 新 和 查询 操作 。 其 次 ， 它 属于 
对 知识 库 的 一 种 语义 天 系 操作 ， 需 要 具有 自 适应 性 、 演 化 性 和 可 溯源 性 ， 与 知识 库 协 调 一 致 。 因 此 ， 智 能 晶 格 可 以 认为 是 一 种 操 
作 。 从 数据 存储 角度 看 ， 它 是 知识 库 的 一 种 物理 索引 方法 ， 用 于 实现 数据 的 分 层 组 织 ; 从 数据 的 呈现 上 看 ， 它 是 知识 库 的 不 同 层 
次 、 不 同 粒度 的 关系 数量 和 知识 结构 的 概要 ， 为 知识 融合 提供 变 粒度 数据 资源 。 


例如 gStore 索 引 [利用 RDF 图 中 挖掘 出 的 若干 存储 模式 和 列 存储 技术 将 RDF 数 据 中 满足 这 些 存储 模式 的 结构 保存 在 一 起 。 但 
是 ， 对 于 大 数据 的 D&2V 特 性 ， 还 需要 根据 高 阶 多 元 关系 中 路 径 语义 关系 自动 地 找到 关联 数据 中 路 径 模式 和 自然 语言 中 天 系 词汇 
之 间 的 对 应 关系 来 发 现存 储 模式 ， 自 适应 学 习 动态 索引 的 构建 方法 ， 优 化 知识 的 结构 ， 进 而 动态 建立 不 同 粒度 级 别 的 概要 图 ， 并 
实现 智能 晶 格 “ 上 铀 ”和 “下 钼 ”的 交互 式 浏览 方法 ， 方 便 用 户 使 用 不 同 粒度 的 数据 和 理解 复杂 关联 数据 模式 。 


[1] Zou 工 ，zsu M 工 ，Chen 工 ，etal，GStote: A Graph-based SPARQL Query Engine [J] . The VLDB journal ，2014，23 (4) : 565- 
590 . 


2.6.2 ”迁移 学 习 


迁移 学 习 是 为 解决 跨 媒体 、 跨 领域 、 跨 学 科 、 跨 行业 体系 的 大 数据 融合 问题 而 提出 的 ， 主 要 针对 跨 媒体 、 跨 领域 的 知识 学 习 
学 


和 跨 学 科 、 跨 行业 体系 的 知识 复 用 。 


1) 跨 媒体 、 跨 领域 的 知识 学 习 : 大 数据 融合 的 对 象 具 有 多 样 性 ， 它 既 可 以 是 结构 化 数据 (如 表格 、 列 表 等 ) 、 非 结构 化 数 
据 (如 文本 、 图 片 、 视 频 等 ) 、 半 结构 化 的 社会 媒体 数据 (如 微 博 、 博 客 等 复杂 类 型 数据 ) ， 也 可 以 是 知识 ， 如 规律 、 模 型 、 机 
理 等 ， 它 不 仅 以 多 种 形式 共存 ， 还 出 现在 不 同 领域 ， 出 现 了 多 类 型 、 跨 领域 融合 的 现象 。 针 对 这 种 跨 领 域 的 多 形式 数据 进行 知识 
融合 不 是 简单 的 匹配 融合 ， 需 要 充分 考虑 各 种 数据 形式 的 特点 ， 同 时 需要 研究 它们 的 差异 所 在 以 及 如 何 合理 地 处 理 这 些 差异 ， 这 
是 数据 融合 面临 的 一 个 挑战 。 在 知识 融合 过 程 中 上 层 机 理 是 相通 的 ， 如 人 金融 市 场 呈现 出 的 长 期 记忆 性 和 社会 网 络 中 注意 力 流 的 长 
期 记忆 性 ， 它 们 都 呈现 出 了 长 期 记忆 现象 。 那 么 ， 它 们 在 分 析 、 人 处 理 方法 上 就 可 以 相互 借鉴 。 此 外 ， 系 统 科学 从 全 局 、 整 体 出 发 
研究 数据 的 宏观 现象 、 特 征 等 ， 与 数据 库 领 域 的 局 部 、 微 观 现象 的 发 现形 成 互补 ， 可 以 相互 借鉴 。 这 种 在 知识 融合 中 适合 处 理 多 
形式 数据 的 跨 领 域 寻找 方法 使 得 知识 融合 更 高 效 。 


2) 跨 学 科 、 跨 行业 体系 的 知识 复 用 : 大 数据 融合 是 为 了 更 好 地 提供 知识 服务 ， 其 中 数据 融合 提供 集成 化 知识 ， 知 识 融 合 在 
此 基础 上 进一步 理解 ， 以 获得 知识 的 隐 性 特征 、 规 律 ， 并 对 其 进行 验证 、 剖 析 ， 归 纳 出 知识 间 呈 现 的 普 适 性 质 、 现 象 ， 甚 至 是 内 
在 机 理 。 那 么 如 何 将 一 个 行业 体系 中 获取 的 深度 知识 、 普 适 机 理 等 ， 以 低廉 成 本 ， 直 观 、 快 速 地 应 用 到 其 他 行业 体系 中 就 是 一 个 
焦点 。 一 个 普遍 的 想法 是 : 如 果 出 现 了 类 似 的 情境 ， 可 以 利用 已 有 的 结论 提出 假设 ， 在 相同 的 环境 设置 下 调整 一 个 或 多 个 变化 因 
素 ， 观 察 事态 变化 以 验证 假设 。 这 一 过 程 的 核心 在 于 将 可 控 模 拟 仿真 的 方法 、 大 数据 融合 的 理论 与 实际 应 用 相 结合 ， 围 绕 现 实 中 
特定 问题 ， 依 据 大 数据 融合 理论 得 到 的 相关 历史 知识 、 经 验 ， 包 括 规律 、 性 质 、 机 理 、 现 象 等 ， 结 合 特定 领域 或 情境 下 的 知识 ， 
通过 模拟 、 仿 真 的 手段 ， 生 成 相应 的 可 执行 方案 。 所 以 ， 可 控 模 拟 仿真 的 方法 、 大 数据 融合 的 理论 与 实际 应 用 相 结合 的 迁移 学 习 


方法 将 成 为 大 数据 时 代 的 一 种 发 展 趋势 。 


2.6.3 ”数据 溯源 


大 数据 融合 过 程 对 用 户 透 明 ， 缺 乏 可 解释 性 和 可 操作 性 ， 并 且 大 数据 的 海量 性 和 动态 演化 加 大 了 错误 恢复 的 难度 ， 传 统 融合 
方法 没有 考虑 这 一 点 。 因 此 ， 必 须 建立 大 数据 融合 的 可 溯源 机 制 。 追 溯 融 合 结果 的 数据 来 源 以 及 演化 过 程 ， 以 便 及 时 发 现 和 更 正 
着 误 。 这 一 步 的 关键 是 数据 起 源 的 表示 以 及 数据 演化 中 间 过 程 的 跟踪 。 其 中 ， 中 间 过 程 包 括 实 体 识别 和 冲突 解决 过 程 、 知 识 库 自 
适应 发 展 过 程 以 及 知识 推理 和 深度 知识 发 现 过 程 。 


对 于 数据 融合 ， 首 先 需要 建立 知识 获取 的 溯源 机 制 ， 主 要 回答 每 条 关联 数据 来 源 于 哪个 数据 源 ， 是 经 过 了 哪些 操作 (如 实 
体 、 关 系 和 属性 抽取 ) 得 到 的 。 这 些 数据 的 溯源 对 于 判定 数据 的 可 信 性 非常 重要 。 然 后 ， 需 要 建立 实体 识别 溯源 机 制 ， 用 于 跟踪 
融合 结果 由 哪些 待 统一 实体 产生 。 最 后 ， 建 立 冲 突 解 决 溯源 机 制 ， 用 于 处 理 融 合 结果 元 组 中 的 每 个 值 来 自 于 哪些 记录 的 哪个 属性 
值 以 及 通过 何 种 冲突 解决 方法 得 来 。 


在 知识 推演 和 深度 知识 发 现 过 程 中 ， 不 仪 需要 向 用 户 返 回 系统 产生 的 答案 ， 还 需要 向 用 户 展示 答案 的 来 源 和 证 据 ， 即 需要 解 
决 答案 来 源 的 “Why”“How”“Where” “Why Not ”问题 。 与 传统 天 系数 据 库 中 的 溯源 问题 基于 关系 代数 的 执行 路 径 分 析 
不 同 的 是 ， 在 知识 推演 和 深度 知识 发 现 中 ， 多 了 一 个 自然 语言 问题 理解 的 过 程 。 因 此 在 回答 这 类 溯源 问题 时 ， 需 要 统一 的 推理 和 
发 现 问题 执行 计划 的 表达 模型 ， 根 据 该 模型 给 出 溯源 的 答案 。 此 外 ， 维 护 溯源 机 制 很 花 时 间 和 空间 ， 如 何 提高 溯源 的 查询 性 能 ， 
同时 降低 溯源 的 时 空 代价 也 是 亚 待 解决 的 问题 。 


2.6.4 D&2V 处 理 


制约 传统 方法 在 大 数据 中 使 用 的 3 个 主要 因素 是 大 数据 的 动态 演化 性 、 高 速 性 和 海量 性 (简称 D&2V) 。 知 识 的 动态 演化 贯 
穿 整个 大 数据 融合 过 程 ， 它 影响 着 数据 融合 、 知 识 融 合 的 各 种 技术 ， 所 以 还 需要 结合 其 他 方法 具体 考虑 。 但 是 ， 其 中 最 为 重要 的 
两 项 工作 是 : @ 对 动态 变化 的 跟踪 和 知识 演化 的 建 模 ， 对 于 大 数据 的 特殊 性 ， 需 要 考虑 变化 的 复杂 模式 ， 如 语义 关系 等 ， 最 好 能 
从 中 挖掘 概念 模板 以 应 对 数据 的 高 速 性 和 海量 性 ;@ 应 对 动态 性 给 数据 人 存储、 索引 带 来 的 挑战 ， 动 态 性 是 影响 大 数据 融合 的 关键 
因素 ,亟待 解决 。 


对 于 海量 性 和 高 速 性 ， 主 要 解决 的 是 它们 带 来 的 负面 影响 ， 对 这 两 个 因素 的 处 理 直 接 关系 到 大 数据 融合 的 性 能 和 效率 。 海 量 
性 和 高 速 性 迫使 传统 的 多 项 式 时 间 算 法 不 再 适用 ， 需 要 权衡 精度 与 速度 (效率 ) ， 大 致 有 4 种 解决 思路 : @ 近 似 计 算 ， 采 用 近似 
算法 代替 原来 的 精确 计算 方法 ; @ 简 约 计算 (N->K) ， 通 过 核 数据 、 采 样 等 手段 实现 模型 的 精简 和 算法 的 快速 收敛 ， 达 到 | 简约 
计算 ,例如 发 现 全 量 全 模 态 (N) 数据 中 的 核 数据 (K) 进行 近似 ,或 者 通过 采样 实现 多 重 小 样本 (K) 对 全 量 数据 (N) 的 有 效 
近似 ; @ 分 治 计算 (N/K) ， 即 通过 数据 化 整 为 零 的 手段 实现 计算 的 约 简 ， 达 到 算法 层面 的 横向 扩展 (Scale Out) ， 如 网 格 计 
算 、MapReduce 和 参数 化 服务 ，@ 增 量 计算 (N-> N) ， 即 针对 数据 相对 于 增 量 远 小 于 绝对 基数 的 现象 ， 采 用 增 量 计算 理论 ， 
需要 支持 流 式 数据 的 实时 OLAP 分 析 。 除 此 之 外 ， 也 可 以 借助 优化 硬件 技术 来 支持 大 数据 的 处 理 。 
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本 章 围绕 如 何 获取 高 品质 知识 、 最 大 程度 地 发 挥 大 数据 价值 这 一 问题 ， 首 先 提出 了 大 数据 融合 的 概念 并 分 析 了 大 数据 融合 的 
独特 性 和 任务 。 其 次 面 对 大 数据 融合 这 一 类 新 颖 任务 ， 对 比 、 分 析 了 各 领域 目前 的 融合 范式 ， 归 纳 了 现 有 融合 范式 的 缺陷 。 最 后 
提出 了 动态 演化 的 数据 融合 与 多 维度 多 粒度 的 知识 融合 双环 驱动 的 大 数据 融合 范式 。 与 传统 融合 范式 相 比 ， 大 数据 融合 学 式 具 有 
显著 不 同 的 特点 : @ 融 合 对 象 区 分 数据 和 知识 ;名 可 实现 变 粒度 数据 资源 提供 和 多 维度 知识 呈现 ，@ 大 数据 融合 范式 中 知识 融合 
与 数据 融合 相互 启发 ， 使 获取 的 知识 品质 更 高 ，@ 提 供 了 大 数据 融合 的 可 回溯 机 制 ， 可 操作 和 可 理解 性 强 ; @ 大 数据 融合 

(BDF) 揭示 了 数据 背后 的 深层 意义 。 但 是 ， 大 数据 融合 是 一 个 多 学 科 、 跨 领域 的 研究 课题 ， 这 一 范式 的 实现 不 仅 需 要 各 领域 科 
研 人 员 的 广泛 参与 和 紧密 合作 ， 更 迫切 需要 将 各 领域 的 技术 、 方 法 向 新 的 深度 和 广度 拓展 ， 做 到 大 跨度 、 深 层次 融合 。 


第 3 章 大 数据 存储 


3.1 引言 


大 数据 存储 与 管理 研究 首先 面临 的 是 存储 技术 上 的 挑战 。 虽 然 目前 有 许多 存储 技术 有 望 用 于 大 数据 存储 ， 但 它们 都 存在 局 限 
性 贞 。 例 如 : 


“ 目前 以 NoSQL 数 据 库 为 代表 的 大 规模 分 布 式 数据 库 系统 设计 了 基于 磁盘 存储 的 读 写 方式 、 索 引 结 构 、 查 询 执 行 、 查 询 优 
化 和 恢复 策略 ， 但 是 磁盘 固有 的 读 写 性 能 差 等 商 端 限制 了 大 数据 存 取 尤其 是 大 数据 分 析 性 能 的 提升 。 


“ 以 HDFS 为 代表 的 大 规模 分 布 式 文件 系统 虽然 提供 了 大 数据 的 存储 支持 能 力 ， 但 由 于 这 些 文件 系统 在 设计 时 并 没有 考虑 对 
实时 、 高 性 能 的 数据 处 理 的 支持 ， 因 此 无 法 满足 日 益 增长 的 大 数据 在 线 分 析 的 需求 。 此 外 ， 随 着 数据 量 的 急剧 增加 ， 元 数据 的 大 
小 也 急剧 增加 ， 传 统 的 元 数据 架构 、 元 数据 备份 管理 、 元 数据 动态 负载 均衡 等 越 来 越 难 适应 大 数据 应 用 需求 。 


“ 基于 动态 随机 存储 器 (Dynamic Random Access Memory，DRAM) 的 内 存 数据 管理 技术 试图 通过 DRAM 的 高 性 能 优势 来 克 
服 大 数据 管理 与 分 析 中 的 瓶颈 ， 但 由 于 DRAM 价 格 较 高 并 且 单 节点 DRAM 容 量 已 经 很 难 扩充 ， 限 制 了 当前 基于 DRAM 的 主 存 结构 
在 大 规模 数据 处 理 中 的 运用 。 


鉴于 磁盘 人 存储、 内 存 人 存储 在 面临 大 数据 管理 与 分 析 时 的 困难 ， 学 术 界 和 工业 界 开始 将 目光 转向 新 型 存储 技术 。 国 际 上 从 
2000 年 以 来 在 内 存 、 相 变 存储 器 (Phase Change Memory，PCM) 等 新 型 存储 器 件 的 制造 和 产业 化 方面 取得 了 重要 突破 ， 并 
已 开始 逐步 在 各 类 应 用 领域 (如 嵌入 式 系统 、 企 业 计 算 等 ) 中 使 用 。 新 型 存储 所 具有 的 高 读 写 速 度 、 非 易 失 、 低 能 耗 等 特性 给 大 
数据 技术 的 发 展 提供 了 新 的 机 遇 ， 因 此 ， 以 新 型 存储 为 基础 的 大 数据 存储 与 管理 技术 也 吸引 了 国内 外 学 者 的 关注 ， 包 括 闪存 、 
PCM 等 向 B 向 。 闪 存 是 一 种 可 以 被 电子 化 擦 除 和 重 写 的 非 易 失 性 存储 设备 ， 闪 存 将 二 进 制 数据 存储 在 双 层 MOS 管 组 成 的 记忆 单 


元 阵列 中 ，MOS 管 中 包含 “浮动 栅 ” 和 “控制 栅 ” ， 数 据 位 是 1 还 是 0 取决 于 浮动 栅 上 是 否 有 电子 ， 写 入 0 时 ， 向 栅 电 极 和 漏 极 
施加 高 电压 ， 增 加 在 源 极 和 漏 极 之 间 传 导 的 电子 能 量 ， 这 样 一 来 ， 电 子 就 会 突破 氧化 膜 绝缘 体 ， 进 入 浮动 栅 ， 即 成 功 写 入 0。 读 


取 数 据 时 ， 向 栅 电 极 施加 一 定 的 电压 ， 电 流 大 定 为 1， 电 流 小 定 为 0。 固 态 硬盘 (Solid State Drive，SSD) 是 目前 闪存 存储 的 最 
主要 形式 ， 主 要 由 闪存 必 片 、 闪 存 转 换 层 、 地 址 映射 表 寄 存 器 、 控 制 器 等 部 件 构成 。 


与 磁盘 介质 相 比 ， 闪 存 具 有 传输 速率 高 、 延 迟 低 、 能 耗 低 、 噪 声 低 、 抗震 等 优良 特性 。 同 时 也 有 一 些 特 殊 性 质 : @ 写 前 擦 
除 ， 对 闪存 的 写 操作 不 是 简单 地 改变 某 个 二 进 制 位 ， 而 是 需要 将 整个 探 除 块 的 所 有 二 进 制 位 置 1， 这 带 来 了 闪存 的 读 写 不 对 称 
性 ， 一 般 采 用 异地 更 新 的 方式 缓解 写 前 探 除 带 来 的 延迟 ， 减 少 读 写 不 对 称 带 来 的 影响 ;，@ 寿 命 限 制 ， 目 前 企业 级 闪存 能 耐 受 3 万 


次 写 循 环 ， 消 费 级 闪存 仅 为 3000 次 ; 四 读 写 与 擦 除 的 单位 不 一 致 ， 一 个 擦 除 块 中 包含 若干 个 闪存 页 ， 擦 除 的 单位 是 一 个 闪存 控 
除 块 (erase block) ， 读 写 的 单位 是 闪存 页 。 


PCM 是 一 种 非 易 失 类 型 的 存储 器 ， 主 要 存储 部 件 由 硫 系 玻璃 材质 制 成 。 这 种 材质 具有 一 种 特殊 的 性 质 ， 那 就 是 通过 施 以 电 
脉冲 ， 它 可 以 在 非 晶 态 和 多 晶 态 这 两 种 状态 之 间 进 行 转换 。PCM 兼 具 速 度 快 、 耐 用 、 非 挥发 性 和 高 密度 性 等 多 种 优势 ， 其 读 写 
数据 和 恢复 数据 的 速度 是 现在 应 用 最 广泛 的 非 挥 发 性 存储 技术 闪存 的 100 倍 。 近 年 来 ，PCM 的 芯片 工艺 和 人 存储 容量 有 了 快速 发 
展 。 


IBM 公 司 把 PCM 这 一 类 具有 DRAM 的 存 取 性 能 同时 又 具有 持久 存储 能 力 的 存储 介质 称 为 存储 级 主 存 (Storage Class 
Memory，SCM) [5]，[6l，[71。pCM 等 存储 级 主 存 技术 具有 非 易 失 、 存 储 速 度 快 、 易 实现 高 密度 等 技术 特点 ， 在 高 速 与 海量 存 
储 方面 具有 巨大 的 潜能 ， 已 被 认为 是 下 一 代 非 易 失 存储 技术 的 最 佳 解决 方案 之 一 。 另 外 ， 因 该 技术 兼 有 DRAM 的 高 速 随机 访问 
和 闪存 的 非 易 失 特 性 ， 模 糊 了 主 存 和 外 存 的 界限 ， 有 望 突破 原 有 的 存储 体系 架构 ， 实 现 更 高 性 能 的 存 取 。 因 此 ， 我 们 可 以 利用 
PCM 等 新 型 存储 器 件 设计 出 适合 大 数据 存储 与 管理 的 新 型 存储 架构 (如 图 3-1 所 示 ) 。 该 架构 一 方面 利用 DRAM 和 PCM 等 
SCM， 可 让 CPU 直接 控制 主 存 控制 器 ， 通 过 硬件 管理 的 方式 实现 CPU 存 取 和 字 节 存 取 ; 另 一 方面 利用 传统 的 |/O 控 制 器 控制 SSD 
和 HDD 等 外 存 设备 ， 通 过 软件 管理 的 方式 实现 进程 存 取 和 页 式 存 取 。 与 此 同时 ， 可 进一步 设计 新 的 分 布 式 多 节点 存储 技术 ， 将 
大 数据 存 取 集中 在 DRAM 和 PCM 上， 充分 发 挥 DRAM 和 PCM 的 高 性 能 以 及 PCM 的 随机 存 取 和 非 易 失 优点 ， 而 且 可 以 利用 分 布 
式 多 节点 存储 的 优势 建立 具有 高 扩展 性 的 大 数据 存储 系统 。 






GEU 
' 硬件 管理 
* 低 延 迟 /高 性 能 
" CPU 存 取 





. 字 节 存 取 


/OO 控制 费 


“软件 管理 
* 噩 延 尖 / 低 性 能 
“ 进程 存 取 


页 式 存 取 


图 3-1 基于 SCM 的 存储 体系 架构 
[1 孟 小 峰 ， 送 祥 . 大 数据 : 概念 、 技 术 与 挑战 [J] . 计算 机 研究 与 发 展 ，2013，50 (1) : 146-169. 
D] 王 江 涛 ， 赖 文 耶 ， 和 蚤 小 峰 . 基于 闪存 的 研究 、 技 术 与 挑战 []] . 计算 机 学 报 ，2013，36 (8) : 1549-1567 . 


[3] Raoux S, Burr G W，Bteitwisch M J, et al. Phase-change Randomaccess Memory: A Scalable Technology [J . IBM Journal of 
Reseatch and Development (IBMRD) , 2008, 52 (4. 5) : 465-479. 

[各 刘 芳 ， 陈 志 广 ， 刘 和 勇 攀 ， 等 .固态 存储 技术 的 发 展 与 展望 []] .中国 计算 机 学 会 通讯 ，2012, 8 (10) : 15-20. 

[5] 刘 芳 ， 陈 志 广 ， 刘 和 勇 欧 ， 等 ,固态 存储 技术 的 发 展 与 展望 [J] . 中 国 计 算 机 学 会 通讯 ，2012, 8(10): 15-20 . 

[6] Richard F Freitas, Winfried W Wilcke . Storage-class Memory: The Next Storage Systemtechnology [J] . IBM Journal of Reseatch and 


Development, 2008, 52(4): 439-447 . 
7] Geoffrey W . Butrr, Bilent N . Kutrdi, et al . : Overview of Candidate Devicetechnologies for Storage-class Memory [J|] . IBM 


Journal of Research and Development, 2008, 52(4): 449-464 . 


第 3 草 ”大 数据 存储 


3.1 引言 


大 数据 存储 与 管理 研究 首先 面临 的 是 存储 技术 上 的 挑战 。 虽 然 目前 有 许多 存储 技术 有 望 用 于 大 数据 存储 ， 但 它们 都 存在 局 限 
性 叫 。 例 如 : 


* 目前 以 NoSQL 数 据 库 为 代表 的 大 规模 分 布 式 数据 库 系 统 设计 了 基于 磁盘 存储 的 读 写 方式 索引 结构 、 查 询 执行 、 查 询 优 
化 和 恢复 策略 ， 但 是 磁盘 固有 的 读 写 性 能 差 等 束 端 限制 了 大 数据 存 取 尤 其 是 大 数据 分 析 性 能 的 提升 。 


以 HDFS 为 代表 的 大 规模 分 布 式 文件 系统 虽然 提供 了 大 数据 的 存储 支持 能 力 ， 但 由 于 这 些 文件 系统 在 设计 时 并 没有 考虑 对 
实时 、 高 性 能 的 数据 处 理 的 支持 ， 因 此 无 法 满足 日 益 增长 的 大 数据 在 线 分 析 的 需求 。 此 外 ， 随 着 数据 量 的 急剧 增加 ， 元 数据 的 大 
小 也 急剧 增加 ， 传 统 的 元 数据 架构 、 元 数据 备份 管理 、 元 数据 动态 负载 均衡 等 越 来 越 难 适 应 大 数据 应 用 需求 。 


“ 基于 动态 随机 存储 器 (Dynamic Random Access Memory，DRAM) 的 内 存 数据 管理 技术 试图 通过 DRAM 的 高 性 能 优势 来 克 
服 大 数据 管理 与 分 析 中 的 瓶颈 ， 但 由 于 DRAM 价 格 较 高 并 且 单 节点 DRAM 容 量 已 经 很 难 扩 充 ， 限 制 了 当前 基于 DRAM 的 主 存 结构 
在 大 规模 数据 处 理 中 的 运用 。 


鉴于 磁盘 存储 、 内 存 存 储 在 面临 大 数据 管理 与 分 析 时 的 困难 ， 学 术 界 和 工业 界 开始 将 目光 转向 新 型 存储 技术 。 国 际 上 从 
2000 年 以 来 在 内 存 、 相 变 存储 器 (Phase Change Memory，PCM) 等 新 型 存储 器 件 的 制造 和 产业 化 方面 取得 了 重要 突破 ， 并 
已 开始 逐步 在 各 类 应 用 领域 (如 庶 入 式 系统 、 企 业 计 算 等 ) 中 使 用 。 新 型 存储 所 具有 的 高 读 写 速度 、 非 易 失 、 低 能 耗 等 特性 给 
数据 技术 的 发 展 提供 了 新 的 机 遇 ， 因 此 ， 以 新 型 存储 为 基础 的 大 数据 存储 与 管理 技术 也 吸引 了 国内 外 学 者 的 关注 ， 包 括 闪存 、 
PCM 等 向 B 向 。 闪 存 是 一 种 可 以 被 电子 化 擦 除 和 重 写 的 非 易 失 性 存储 设备 ， 闪 存 将 二 进 制 数据 存储 在 双 层 MOS 管 组 成 的 记忆 单 
元 阵列 中 ，MOS 管 中 包含 “浮动 栅 ” 和 “控制 栅 ” ， 数 据 位 是 1 还 是 0 取决 于 浮动 栅 上 是 否 有 电子 ， 写 入 0 时 ， 向 栅 电 极 和 漏 极 
施加 高 电压 ， 增 加 在 源 极 和 漏 极 之 间 传 导 的 电子 能 量 ， 这 样 一 来 ， 电 子 就 会 突破 氧化 膜 绝缘 体 ， 进 入 浮动 栅 ， 即 成 功 写 入 0。 读 
取 数 据 时 ， 向 栅 电 极 施加 一 定 的 电压 ， 电 流 大 定 为 1， 电 流 小 定 为 0。 固 态 硬盘 (Solid State Drive，SSD) 是 目前 闪存 存储 的 最 
主要 形式 ， 主 要 由 闪存 心 片 、 闪 存 转换 层 、 地 址 映射 表 寄存 器 、 控 制 器 等 部 件 构成 。 


与 磁盘 介质 相 比 ， 闪 存 具有 传输 速率 高 、 延 迟 低 、 能 耗 低 、 噪 声 低 、 抗 震 等 优良 特性 。 同 时 也 有 一 些 特 殊 性 质 : @ 写 前 擦 
除 ， 对 闪存 的 写 操作 不 是 简单 地 改变 某 个 二 进 制 位 ， 而 是 需要 将 整个 擦 除 块 的 所 有 二 进 制 位 置 1， 这 带 来 了 闪存 的 读 写 不 对 称 
性 ,一 般 采 用 异地 更 新 的 方式 缓解 写 前 擦 除 带 来 的 延迟 ， 减 少 读 写 不 对 称 带 来 的 影响 ;寿命 限制 ， 目 前 企业 级 闪存 能 耐 受 3 万 
次 写 循 环 ， 消 费 级 闪存 仅 为 3000 次 ; 四 读 写 与 擦 除 的 单位 不 一 致 ， 一 个 擦 除 块 中 包含 若干 个 闪存 页 ， 擦 除 的 单位 是 一 个 闪存 擦 
除 块 (erase block) ， 读 写 的 单位 是 闪存 页 。 


PCM 是 一 种 非 易 失 类 型 的 存储 器 ， 主 要 存储 部 件 由 硫 系 玻璃 材质 制 成 。 这 种 材质 具有 一 种 特殊 的 性 质 ， 那 就 是 通过 施 以 电 
脉冲 ， 它 可 以 在 非 晶 态 和 多 晶 态 这 两 种 状态 之 间 进 行 转换 。PCM 兼 具 速 度 快 、 耐 用 、 非 挥发 性 和 高 密度 性 等 多 种 优势 ， 其 读 写 


数据 和 恢复 数据 的 速度 是 现在 应 用 最 广泛 的 非 挥 发 性 存储 技术 闪存 的 100 售 。 近 年 来 ，PCM 的 芯片 工艺 和 存储 容量 有 了 快速 发 
展 。 


IBM 公 司 把 PCM 这 一 类 具有 DRAM 的 存 取 性 能 同时 又 具有 持久 存储 能 力 的 存储 介质 称 为 存储 级 主 存 (Storage Class 
Memory，SCM) [Pl，[6l，[71。pCM 等 存储 级 主 存 技术 具有 非 易 失 、 存 储 速 度 快 、 易 实现 高 密度 等 技术 特点 ， 在 高 速 与 海量 存 
储 方面 具有 巨大 的 潜能 ， 已 被 认为 是 下 一 代 非 易 失 存储 技术 的 最 佳 解决 方案 之 一 。 另 外 ， 因 该 技术 兼 有 DRAM 的 高 速 随机 访问 
和 闪存 的 非 易 失 特 性 ， 模 糊 了 主 存 和 外 存 的 界限 ， 有 望 突破 原 有 的 存储 体系 架构 ， 实 现 更 高 性 能 的 存 取 。 因 此 ， 我 们 可 以 利用 
PCM 等 新 型 存储 器 件 设计 出 适合 大 数据 存储 与 管理 的 新 型 存储 架构 (如 图 3-1 所 示 ) 。 该 架构 一 方面 利用 DRAM 和 PCM 等 
SCM， 可 让 CPU 直接 控制 主 存 控制 器 ， 通 过 硬件 管理 的 方式 实现 CPU 存 取 和 字 节 存 取 ; 另 一 方面 利用 传统 的 MO 控制 器 控制 SSD 
和 HDD 等 外 存 设备 ， 通 过 软件 管理 的 方式 实现 进程 存 取 和 页 式 存 取 。 与 此 同时 ， 可 进一步 设计 新 的 分 布 式 多 节点 存储 技术 ， 将 
大 数据 存 取 集中 在 DRAM 和 PCM 上 ， 充 分 发 挥 DRAM 和 PCM 的 高 性 能 以 及 PCM 的 随机 存 取 和 非 易 失 优点 ， 而 且 可 以 利用 分 布 
式 多 节点 存储 的 优势 建立 具有 高 扩展 性 的 大 数据 存储 系统 。 
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图 3-1 基于 SCM 的 存储 体系 架构 
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3.2 ”大 数据 仓储 与 党 理 方法 


闪存 、PCM 等 新 型 存储 介质 的 引入 使 得 大 数据 存储 架构 有 了 多 种 选择 。 但 由 于 新 型 存储 介质 在 价格 、 寿 命 等 方面 与 传统 的 
磁盘 相 比 不 具 优势 ， 因 此 目前 主流 的 观点 是 在 大 数据 存储 系统 中 同时 使 用 新 型 存储 介质 和 传统 存储 介质 ， 由 此 产生 了 多 种 基于 新 
型 存储 的 大 数据 存储 架构 ， 如 基于 PCM 的 主 存 架构 、 基 于 闪存 的 主 存 扩展 架构 、 基 于 多 存储 介质 的 分 层 存 储 架 构 等 。 


3.2.1 基于 PCM 的 主 存 架 构 


由 于 PCM 存 储 密度 高 、 容 量 大 、 耗 电 低 ， 而 且 访 问 速 度 接近 内 存 ， 因 此 工业 界 和 学 术 界 都 开展 了 将 PCM 作 为 主 存 系统 的 研 
究 。 与 内 存 相 比 ，PCM 存 取 延 迟 更 短 ， 而 且 可 以 直接 按 位 存 取 ， 因 此 能 够 被 CPU 直 接 存 取 ， 更 适合 作为 DRAM 的 扩展 。 与 
DRAM 相 比 ，PCM 具 有 非 易 失 性 特点 ， 因 此 适合 存储 文件 等 静态 数据 。 


在 利用 PCM 蔡 代 DRAM 方 面 ， 目 前 的 研究 重点 主要 集中 在 利用 DRAM 减 少 对 PCM 的 写 操作 以 及 负载 均衡 等 项 目 。 对 于 利用 
DRAM 来 减少 对 PCM 写 操作 的 方法 ， 研 究 者 往往 借助 DRAM 缓 存 来 延迟 对 PCM 的 写 操作 从 而 达到 减少 PCM 写 次 数 的 目的 1。 
负载 均衡 思想 是 通过 增加 一 层 地 址 映射 ， 将 PCM 的 写 操作 均匀 地 分 配给 所 有 的 存储 单元 ， 以 尽 可 能 地 达到 PCM 的 最 大 使 用 寿 
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在 针对 大 数据 存储 的 集群 架构 中 ， 负 载 均衡 主要 通过 适合 PCM 的 数据 划分 算法 实现 。PCM 作 为 主 存 系统 的 思想 对 于 大 数据 
管理 与 分 析 有 着 重要 的 意义 。 虽 然 大 数据 应 用 中 涉及 的 原始 数据 量 非常 大 ， 但 真正 有 价值 的 数据 以 及 应 用 每 次 需要 存 取 的 数据 量 
仍 是 有 限 的 ， 因 此 我 们 可 以 利用 PCM 的 高 性 能 、 非 易 失 、 按 位 存 取 等 特性 ， 将 应 用 需要 实时 存 取 的 高 价值 数据 存储 在 PCM 中 ， 
将 PCM 与 DRAM 混 合 形成 高 性 能 数据 处 理 系 统 ， 同 时 将 大 规模 的 原始 数据 存储 在 磁盘 和 SSD 中 。 因 此 ， 将 PCM 引 入 目前 的 存储 
架构 中 将 有 望 解决 大 数据 管理 与 分 析 中 的 性 能 问题 。 


[1] Qureshi M, Stinivasan V, Rivers J. Scalable High Performance Main Memoty System Using Phase-change Memory 
Technology [J| . ACM SIGARCH Computer Architecture News, 2009, 37 (3) : 24-33. 


3.2.2 ”基于 闪存 的 主 存 扩展 架构 


与 PCM 相 比 ， 目 前 闪存 的 应 用 更 为 广泛 。 高 速 大 容量 SSD 设 备 的 不 断 出 现 ， 使 得 SSD 在 存储 架构 中 的 地 位 也 得 以 提升 。 在 
大 数据 管理 方面 ， 目 前 SSD 的 存储 容量 还 达 不 到 大 数据 的 PB 级 别 存储 需求 ， 因 此 近年 来 主要 的 工作 集中 在 利用 高 端 SSD 进 行 主 存 
扩展 的 研究 上 。 


普林斯顿 大 学 的 研究 人 员 提 出 了 一 种 利用 SSD 进 行内 存 扩展 的 主 存 管理 系统 一 一 SSDAllocl1]。SSDAlloc 在 存储 体系 中 将 
SSD 提 升 到 一 个 更 高 的 层次 ， 它 把 SSD 当 作 一 个 更 大 、 稍 慢 的 DRAM 而 不 是 将 它 当 作 磁 盘 的 缓存 。 为 了 提高 数据 库 系统 的 整体 性 
能 ， 研 究 者 以 NoSQL 数 据 库 系统 Redis 为 基础 平台 ， 用 SSD 代 蔡 磁 盘 作 为 虚拟 内 存 中 的 交换 设备 ， 扩 大 虚拟 内 存 的 同时 帮助 
NoSQl 数 据 库 减少 数据 读 延迟 向 。 考 虑 到 当 将 SSD 作 为 虚拟 交换 设备 时 ， 页 面 交换 的 代价 依然 较 大 ， 一 种 基于 DRAM 与 SSD 的 
混合 主 存 架 构 B] 被 设计 出 来 ， 其 将 SSD 作 为 主 存 ， 将 DRAM 作 为 SSD 的 高 速 缓冲 ， 并 将 这 种 混合 主 存 结构 融入 Memcached， 大 
幅 提 升 了 Memcached 性 能 。 


[1] Anirudh Badam, Vivek S. Pai. SSDAlloc: Hybrid SSD/RAM Memory Management Madeeasy LC] .Proc. of NSDIL, 2011: 16-30. 


D] 韩 刀 ， 曹 锡 ， 备 小 峰 . 使 用 固态 硬盘 管理 主 存 KV 数 据 库 的 虚拟 内 存 [J] .计算 机 科学 与 探索 ，2011, 5(8): 686-694. 
[3] Xiangyong Ouyang, Nustat S. Islam, Raghunath Rajachandrasekar, et al. SSD-Assisted Hybrid Memoty to Acceletate Memcached ovet High 


Petfotmance Networks [Cj .Proc. OfICPP, 2012:470-479. 


3.2.3 ”基于 多 存储 介质 的 分 层 存 储 架 构 


基于 不 同 存储 介质 的 分 层 存储 架构 目前 主要 集中 在 DRAM、 闪 存 、 磁 盘 的 混合 存储 上 。 一 种 观点 是 将 闪存 作为 内 存 与 磁盘 
之 间 的 缓存 。 例 如 ，FlashCache[1] 是 Facebook 为 innoDB 设 计 的 块 缓存 应 用 ， 它 将 闪存 划分 为 一 个 逻辑 集合 ， 基 于 组 相 联 映射 
的 思想 将 磁盘 上 的 块 数据 映射 到 闪存 中 。 当 1/O 请 求 到 达 时 ，FlashCache 会 先 在 闪存 中 查找 该 数据 是 否 已 被 缓存 ， 如 果 有 则 直接 
进行 读 操作 ， 否 则 访问 磁盘 。 将 闪存 作为 DRAM 与 磁盘 之 间 的 缓存 进行 数据 预 取 巴 或 者 预 写 B， 内 ， 可 以 充分 发 挥 闪存 读 性 能 
好 的 优点 ， 减 少 对 磁盘 的 写 操作 ， 同 时 减少 系统 能 耗 。 另 一 种 观点 是 将 闪存 与 磁盘 一 样 作为 二 级 存储 介质 ， 手 动 或 者 自动 地 将 不 
同类 别 的 数据 分 配 到 闪存 或 磁盘 上 Dj。 由 于 不 同 的 存储 分 配 策略 以 及 存储 介质 组 合 方式 对 于 此 类 系统 的 性 能 有 着 决定 性 影响 。 


存放 在 SSD 上 ， 而 写 倾 向 负载 或 非 热 点 数据 等 则 存放 在 磁盘 上 。1BM 在 其 企业 级 存储 设备 DS8000 上 增加 了 EasyTier 自 动 封存 存 
储 功能 ll， 将 较 大 的 逻辑 卷 进行 划分 ， 并 对 划分 后 的 子 卷 进 行 热 度 检测 ， 如 果 是 热点 卷 ， 就 将 其 迁移 到 SSD 上 ， 同 时 把 SSD 的 非 
热点 卷 迁 移 到 磁盘 上 。 


此 外 ， 面 向 分 层 存 储 的 存储 分 配方 法 还 应 用 在 大 数据 文件 系统 的 元 数据 管理 上 。 在 面向 大 数据 管理 的 分 布 式 文件 系统 中 ， 利 
用 分 层 系 统 存储 分 配 的 思想 进行 元 数据 管理 ， 可 以 提升 元 数据 存 取 性 能 。 其 基本 思路 是 采用 在 元 数据 服务 器 上 使 用 SSD 作 为 存储 
设备 的 方法 来 加 速 文件 系统 。 


在 存储 介质 用 量 组 合 方面 ， 基 本 思想 是 将 有 限 的 内 存 存 储 资源 在 复杂 的 工作 负载 下 进行 有 效 分 配 ， 在 减少 成 本 的 同时 满足 系 
统 的 性 能 要 求 。 在 大 数据 环境 中 ， 存 储 介质 用 量 组 合 研究 需要 考虑 复杂 的 数据 负载 、 系 统 的 可 靠 性 、 能 耗 等 多 个 方面 的 因素 。 


Google 设 计 了 一 款 基 于 Colossus 文 件 系统 的 闪存 分 配 推荐 系统 一 一 Janusl/]。 他 们 通过 实验 发 现 大 数据 存储 中 I/O 访 问 主要 
集中 于 新 建文 件 ， 故 此 系统 将 新 建文 件 人 存储 在 闪存 层 ， 然 后 使 用 FIFO 或 者 LRU 算 法 将 文件 迁移 到 磁盘 进行 人 存储， 他们 还 设计 了 
缓存 性 评估 方程 、 经 济 性 评估 方程 来 评估 不 同 的 负载 需求 ， 进 而 进行 闪存 用 量 推荐 。 其 实验 结果 表明 ， 经 过 Janus 的 优化 ， 闪 存 
层 存 储 了 1% 的 数据 ， 服 务 了 28% 的 读 操 作 ， 显 著 提 高 了 系统 的 读 性 能 。 


由 于 目前 闪存、PCM 等 新 型 存储 介质 与 DRAM、 磁 盘 等 传统 存储 介质 处 于 共存 的 局 面 ， 预 计 在 较 长 的 时 间 内 新 型 存储 介质 
将 与 传统 介质 同时 出 现在 存储 系统 中 。 尤 其 对 于 大 数据 存储 环境 ， 其 数据 的 使 用 频率 、 规 模 等 都 不 允许 将 所 有 数据 都 统一 存储 在 
集中 式 的 存储 设备 上 ， 因 此 基于 分 层 存 储 的 多 介质 混合 存储 技术 将 越 来 越 受 到 研究 者 们 的 重视 。 但 由 于 多 种 存储 介质 的 分 层 存 储 
存在 着 多 种 组 合 方式 ， 哪 种 混合 存储 策略 适合 大 数据 应 用 、 在 多 介质 混合 存储 系统 中 如 何 有 效 地 实现 数据 分 配 与 迁移 等 仍 有 待 进 


一 步 探 索 。 


[1] Facebook. Flashcache [EB/OL] . https://github. com/facebook/flashcache. 2013Available. 

[2] Chen F, Jiang S, Zhang X. SmartSaver: Turning Flash Drive into A Disk Energy Savet for Mobile Computers [C」 . Proceedings of 
the2006International Symposium on Low Power Electronics and Design (ISLPED) . NJ: IEEE, 2006: 412-417. 

[3] Bisson T, Brandt S, Long D. A Hybrid Disk-aware Spin-down Algorithm with I/O Subsystem Suppott [C] . Proceedings of IEEE 
International Performance, Computing, and Communications Conference (IPCCC) . NJ: IEEE, 2007: 236-245. 


[4] Bisson T, Brandt S. Reducing Hybrid Disk Write Latency with Flash-backed I/O Requests [C] . Proceedings ofl5th International 


Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems (MASCOTS) . NJ: IEEE, 2007: 
402-409 . 

[5] Schmidt S, Wauer T, Fritzsche R, et al. A Storage Ontology forHieratchical Storage Management Systems [C] . Proceedings of 
the3td International Workshop on Semantic Digital Archives (SDA) ，2013: 81-92. 

[6] IBM System Storage DS8000Easy Tiet, [EB/OL] . http://www. tedbooks. ibm. com/redpapers/pdfs/redp4667. pdf. 

[7] Albrecht C, Merchant A, Stokely M, etal. Janus: Optimal Flash Provisioning for Cloud Storage Workloads [C] . Presented as Part 


of the2013USENIX Annual Technical Conference (USENIX ATC) . 2013: 91-102. 


3.2.4 ”分 布 式 存储 与 缓存 染 构 


目前 ， 基 于 分 布 式 观点 的 数据 管理 是 大 数据 存储 与 管理 研究 中 的 一 个 热点 。 一 种 观点 是 将 闪存 应 用 于 分 布 式 文件 系统 中 进行 
元 数据 存储 。 元 数据 对 于 整个 大 数据 管理 系统 的 性 能 起 着 决定 性 作用 ， 对 于 大 数据 解析 、 大 数据 统计 、 大 数据 操作 优化 等 有 着 重 
要 作用 。 基 于 闪存 的 分 布 式 文件 系统 元 数据 管理 的 基本 思路 是 在 元 数据 服务 器 上 使 用 SSD 作 为 存储 设备 来 加 速 文件 系统 。 例 如 ， 
在 Lustre 分 布 式 文件 系统 架构 中 的 元 数据 服务 器 (Metadata Server，MDS) 上 使 用 闪存 作为 存储 介质 ， 加 速 元 数据 的 读 写 速 


度 [1]。 此 外 ， 基 于 Memcached 的 内 存 分 布 式 缓存 技术 也 被 广泛 用 来 加 速 大 规模 数据 的 访问 ， 而 在 更 为 复杂 的 大 数据 环境 下 ， 其 
局 限 性 主要 体现 在 : 一 方面 内 存 分 布 式 缓存 受 限于 集群 内 存 容量 ， 只 能 服务 容量 较 小 的 热点 数据 ， 会 造成 性 能 下 降 ; 另 一 方面 ， 
如 果 采 取 扩大 集群 内 存 容量 来 满足 更 多 数据 缓存 需求 的 话 ， 会 带 来 高 额 的 成 本 和 巨大 的 能 耗 。 现 阶段 解决 方法 是 将 小 容量 、 高 

IO 负载 的 缓存 处 理 与 大 容量 、 中 低 等 /O 负 载 的 缓存 处 理 分 离 ， 形 成 “ 热 缓存 ”与 “ 冷 缓 存 ”的 缓存 策略 ， 其 中 在 “ 冷 组 

存 ” 方面 主要 采用 了 闪存 技术 。 例 如 ，Facebook 设 计 了 基于 闪存 的 McDipper 键 - 值 存储 系统 所 ， 代 蔡 Memcached 为 大 量 访问 
频率 较 低 的 图 片 提供 缓存 服务 ， 降 低 成 本 和 能 耗 ， 为 了 减少 闪存 MO 延迟 ， 将 闪存 层 分 成 两 个 区 域 ， 一 个 区 域 存放 数据 ， 另 一 个 
区 域 配置 了 “ 散 列 桶 ”存放 键 值 数据 的 指针 ， 并 将 “ 散 列 桶 ”元 数据 放 入 了 内 存 。 


四 陈 车 ， 驴 劲 ， 马 知 ， 等 ， 基于 SSD 的 机 群 文件 系统 元 数据 存储 系统 [J] . 计算 机 研究 与 发 展 ，49 (s1) ，2012: 269-275. 
[2] Facebook. McDipper: A key-value cache for Flash storage [EB/OL] . https://www. facebook com/notes/facebook- 


engineering/mcdipper-a-key-value-cache-for-flash-storage/10151347090423920. 


3.3 ”基于 新 型 存储 的 大 数据 管理 


闪存 、PCM 等 新 型 存储 的 物理 特性 、 读 写 特 性 等 均 与 磁盘 有 着 显著 的 不 同 ， 而 目前 已 有 的 大 数据 数据 库 ， 其 设计 理念 均 是 
基于 磁盘 存储 ， 在 面 对 闪 存 、PCM 等 新 型 存储 时 并 不 能 最 大 限度 发 挥 新 型 存储 的 性 能 。 目 前 ， 在 基于 新 型 存储 的 大 数据 管理 方 
面 也 有 一 些 研究 工作 ， 包 括 大 数据 存储 、 大 数据 索引 、 大 数据 查询 和 大 数据 分 析 等 。 


大 数据 存储 通常 采用 分 布 式 异 构 存储 策略 ， 但 传统 的 分 布 式 存储 策略 通常 采用 基于 副本 的 方式 。 引 入 了 多 样 化 的 新 型 存储 介 
质 后 ， 需 要 设计 新 的 数据 分 配 算法 ， 使 数据 分 布 在 合适 的 新 型 存储 介质 上 ， 从 而 加 快 数据 的 访问 性 能 。 


异 构 存 储 系统 的 特点 在 于 采用 了 所 谓 的 日 志 缓存 (buffered logging) 技术 将 主 数 据 放 置 在 性 能 最 好 的 存储 系统 上 ， 而 将 
副本 以 及 数据 更 新 日 志 放 置 在 成 本 较 低 的 存储 上 ， 既 降低 了 成 本 ， 又 保证 了 性 能 ， 如 Ramcloud[I1 


持久 化 策略 是 指 将 数据 写 入 持久 存储 介质 的 策略 ，NoSQL 数 据 库 系 统 中 引入 闪存 之 后 ， 由 于 闪存 具有 的 异地 更 新 特性 ， 往 
往 需 要 设计 新 的 持久 化 策略 。 为 了 有 效 减 少 内 存 异地 更 新 和 垃圾 回收 对 持久 化 性 能 的 影响 ， 可 采用 “隐形 Trim” 机 制 优 化 持久 
化 策略 ， 即 通过 将 闪存 存储 层 作 为 “ 黑 盒 ”， 使 用 基于 性 能 、 块 大 小 等 参数 的 演化 推理 机 制 找 到 最 理想 的 工作 负载 模式 ， 最 终 实 
现 系统 在 闪存 上 的 读 写 性 能 优化 。 例 如 ，RethinkDB 是 一 个 针对 SSD 优 化 的 分 布 式 NoSQL 数 据 库 系统 。 


基于 新 型 存储 的 大 数据 存储 管理 与 传统 的 数据 库 系统 有 着 较 大 的 差别 ， 最 主要 的 一 点 在 于 大 数据 环境 下 数据 存储 通常 是 分 
式 、 分 层 的 ,而 传统 数据 库 系统 中 的 数据 以 集中 存储 为 主 。 因 此 ， 面 向 新 型 存储 的 大 数据 存储 管理 面临 着 存储 介质 异 构 性 、 数 据 
分 片 、 存 储 分 配 等 问题 。 虽 然 NoSQL 在 Web 领 域 得 到 了 广泛 应 用 ， 但 能 否 作 为 大 数据 管理 的 统一 平台 还 有 待 进一步 研究 。 


针对 PCM 存 储 策略 的 优化 和 混合 存储 : 在 DRAM/PCM 混 合 主 存 的 硬件 驱动 的 页 面 置 换 策略 外 。 该 策略 依赖 一 个 内 存 控制 
器 (Memory Controller，MC) 来 监控 内 存 页 面 的 使 用 频率 和 写 密集 程度 。MC 在 DRAM 和 PCM 之 间 进 行 页 面 迁移 ， 保 证 性 能 
做 关 的 页 面 和 频繁 写 的 页 面 保存 在 DRAM 中， 而 性 能 不 太 敏 感 以 及 很 少 写 的 页 面 存储 在 PCM 中 。 将 DRAM 设 计 为 CPU 和 PCM 之 
间 的 缓冲 区 。 所 有 的 数据 页 都 存储 在 PCM 中 ， 只 有 当 DRAM 发 生 页 面 置换 或 者 需要 访问 新 的 页 面 时 系统 才 存 取 PCM。 


[1] Ousterhout J, Agrawal P, Erickson D，et al. The Case for RAMClouds: Scalable High-performance Storage Entitely in 
DRAM [J] . ACM SIGOPS Operating Systems Review (SIGOPS) , 2010, 43 (4) : 92-105. 
[2] Ramos LE, Gorbatov E, Bianchini R. Page Placement in Hybrid Memory Systems LC] . Proceedings of the International Conference 


on Supercomputing. New York: ACM, 2011: 85-95. 


3.3.2 ”索引 管理 


大 数据 管理 中 的 索引 设计 主要 考虑 高 扩展 性 、 高 性 能 并 能 够 有 效 支 持 非 主 键 查询 和 多 维 查询 等 不 同类 型 查询 ， 主 要 索引 结构 
有 二 级 索引 、 双 层 索引 、 按 照 空间 目标 排序 的 索引 等 。 


二 级 索引 由 局 部 索引 和 全 局 索引 构成 ， 局 部 索引 只 负责 该 节点 上 的 数据 索引 ， 全 局 索引 则 依据 局 部 索引 构建 。 双 层 索 引 主 要 
适用 于 非 键 值 列 的 快速 查询 ， 索 引 表 由 原 数据 表 中 的 键 值 和 索引 列 的 组 合 构成 。 


目前 二 级 索引 中 的 局 部 索引 均 基 于 磁盘 特性 进行 设计 。 闪 人 存 等 新 型 存储 的 特性 和 磁盘 具有 明显 差异 ， 将 基于 磁盘 的 索引 实现 
方法 直接 移植 到 新 型 存储 上 会 严重 影响 索引 性 能 。 以 闪存 为 例 ， 传 统 的 索引 更 新 维护 往往 导致 频繁 的 小 数据 量 更 新 ， 这 些 更 新 操 
作 会 带 来 大 量 的 内 存 擦 除 操作 ， 极 大 地 降低 了 索引 的 性 能 和 闪存 寿命 。 


目前 ， 在 基于 新 型 存储 的 索引 方面 ， 主 要 的 研究 集中 在 面向 内 存 的 索引 上 。 闪 存 数据 库 索 引 设 计 的 目标 在 于 不 仅 要 在 内 存 介 
质 上 实现 索引 的 高 查询 性 能 ， 而 且 还 要 根据 闪存 的 物理 特性 减少 索引 更 新 维护 带 来 的 性 能 代价 (如 频繁 擦 除 等 ) 。 目 前 提出 的 内 
存 索 引 结 构 大 都 采用 了 传统 的 树 形 结构 ， 并 以 减少 对 闪存 的 随机 写 为 主要 目的 ， 采 用 的 方法 往往 是 延迟 更 新 或 者 合并 更 新 等 。 


虽然 目前 在 基于 闪存 的 索引 设计 方面 已 经 有 了 不 少 的 工作 ， 但 由 于 在 大 数据 存储 中 引入 了 PCM 等 其 他 类 型 的 新 型 存储 介 
质 ， 而 且 在 计算 架构 上 产生 了 根本 性 变化 (闪存 定位 在 二 级 存储 ， 而 PCM 则 可 以 用 于 直接 的 内 存 扩展 ) ， 因 此 大 数据 索引 技术 
还 需要 在 存储 结构 感知 能 力 方面 进行 新 的 研究 ， 对 于 适合 分 层 混合 存储 的 超大 规模 数据 索引 结构 也 需要 进行 重新 设计 。 


3.3.3 .站 向 处 理 


目前 针对 大 数据 的 查询 处 理 和 优化 主要 集中 在 基于 MapReduce 框 架 的 查询 处 理 研究 上 ， 查 询 执 行 的 研究 主要 集中 在 基于 

MapReduce 的 连接 算法 [加 。 连 接 操 作 会 产生 大 量 的 中 间 结 果 ， 需 要 写 到 外 部 存储 ， 这 对 于 闪存 、PCM 等 来 说 代价 非常 昂贵 ， 
传统 的 基于 MapReduce 的 连接 算法 无 法 发 挥 内 存 、 相 变 存储 器 的 最 佳 性 能 ， 需 要 避免 在 新 型 存储 上 的 大 量 写 操作 对 查询 执行 效 
率 的 影响 。 在 大 规模 分 布 式 数据 库 中 ， 查 询 优 化 工作 主要 集中 在 MapReduce 执 行 计划 选择 以 及 负载 均衡 等 方面 。MapReduce 
执行 计划 选择 的 基本 思想 则 是 在 多 个 可 选 MapReduce 执 行 计划 中 选择 代价 最 小 的 ， 研 究 主要 集中 于 MapReduce 作 业 调 度 B] 和 
MapReduce 任 务 调 度 和 内。MapReduce 任 务 调度 算法 通常 需要 考虑 任务 负载 特征 、 硬 件 异 构 性 等 指标 ， 其 中 硬件 异 构 性 包含 了 
CPU 性 能 、 网 络 带宽 、 内 存 、 存 储 系统 性 能 等 特征 。 随 着 闪存 、PCM 等 新 型 存储 介质 在 大 数据 存储 系统 中 的 应 用 ， 存 储 系统 异 
构 性 将 日 益 凸显 ， 将 给 MapReduce 任 务 调度 带 来 新 的 挑战 。 


在 查询 处 理 的 动态 负载 均衡 方面 ， 目 前 主要 考虑 了 存储 用 量 推 荐 、 数 据 的 读 写 频率 等 因素 。 在 面向 新 型 存储 的 查询 处 理 算法 
方面 ， 目 前 在 基于 闪存 的 连接 算法 上 研究 较 多 ， 其 出 发 点 是 避免 在 内 存 上 执行 大 量 随机 写 操作 ， 同 时 尽量 发 挥 内 存 的 随机 读 性 


ab 
Bb。 
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[2] Okcan A, Riedewald M. Processing Theta-joins Using MapReduce [C] . Proceedings of the2011ACM SIGMOD International 
Conference on Management of data (SIGMOD) . New York: ACM, 2011: 949-960. 

D] Zhao Y, Wang W, Meng D, et al. TDWS: A Job Scheduling Algorithm Based on MapReduce LC] . Proceedings of IEEE7th 
International Conference on Networking, Architecture and Storage (NAS) . NJ: IEEE, 2012: 313-319. 

[4] Wang X, Shen D, Yu G, et al. A Throughput Driven Task Schedulet for Improving Mapreduce Petfotmance in Job-intensive 


Envitonments [C] . Proceedings of2013IEEE International Congress on Big Data. NJ: IEEE, 2013: 211-218. 


3.3.4 ”事务 处 理 


众所周知 ， 关 系数 据 库 中 事务 的 正确 执行 必须 满足 “ACID” 特 性 ， 即 原子 性 (Atomicity) 、 一 致 性 (Consistency) 、 隔 
离 性 (lsolation) 和 持久 性 (Durability) 。 对 于 数据 强 一 致 性 的 严格 要 求 使 其 在 很 多 大 数据 场景 中 无 法 应 用 。 这 种 情况 下 出 现 
了 新 的 “BASE” 特 性 ， 即 只 要 求 满足 Basically Available (基本 可 用 ) 、Soft State (柔性 状态 ) 和 Eventually Consistent (最 
终 一 致 )。 从 分 布 式 领域 著名 的 “CAP” 理 论 角度 来 看 !']，ACID 追 求 一 致 性 “C”， 而 BASE 更 加 关注 可 用 性 “A”。 正 是 在 事 
务 处 理 过 程 中 对 于 ACID 特 性 的 严格 要 求 ， 使 得 关系 型 数据 库 的 可 扩展 性 极其 有 限 。 


大 数据 处 理 与 存储 融合 的 新 型 架构 同样 为 事务 处 理 与 优化 带 来 新 的 机 遇 。 除 了 可 以 采用 PCM 来 提高 日 志 操作 速度 、 采 用 硬 
件 事务 内 存 (Hardware Transactional Memory，HTM) 加 速 事务 处 理 等 方法 外 ， 还 可 以 考虑 利用 存储 必 片 内 部 的 处 理 单元 来 
加 速 并 发 事务 处 理 中 的 串 行 操作 。 具 体 而 言 ， 通 过 重新 设计 事务 和 日 志 管理 算法 ， 使 得 锁 操 作 中 的 临界 区 能 够 直接 在 内 存 片上 处 
理 器 或 者 专用 加 速 器 上 执行 ， 从 而 大 大 提高 并 发 事务 处 理 的 效率 。 


[1] IBM System Storage DS8000Easy Tier, [EB/OL| . http://www. redbooks. ibm. com/redpapers/pdfs/redp4667. pdf. 


3.3.5 ”大 数据 分 析 


当前 主流 的 大 数据 分 析 平 台 ， 如 Hadoop MapReduce 和 Spark 等 ， 都 是 面向 传统 的 通用 处 理 器 -DRAM 架 构 的 计算 机 系统 而 
设计 的 。 为 了 发 挥 处 理 和 存储 融合 的 新 型 架构 优势 ， 需 要 重新 设计 相应 的 大 数据 平台 。 以 MapReduce 为 例 ，Map 阶 段 高 带宽 需 
求 的 特性 要 求 运 算 尽 可 能 放 在 内 存 片上 处 理 器 中 进行 。 再 如 Spark， 由 于 其 内 存 计算 特性 ， 对 内 存 带宽 有 较 大 需求 ， 可 以 考虑 重 
新 设计 架构 使 其 能 够 更 有 效 地 使 用 内 存 片上 处 理 器 。 同 时 由 于 Spark 具 有 良好 的 数据 局 部 性 ， 可 以 考虑 将 热 数 据 放 在 内 存世 片 的 
DRAM 层 上 。 另 外 ， 尽 管 Spark 的 基本 数据 结构 (RDD) 本 身 具 有 容错 性 ， 仍 然 需要 有 日 志 机 制 来 支持 全 面 的 容错 ， 此 时 可 以 考 
虑 将 日 志 放 入 持久 化 的 PCM 人 存储 上 。 


3.4 大 数据 处 理 与 存储 一 体 化 近 术 


日 益 增 长 的 数据 量 对 当前 计算 机 系统 提出 了 重大 挑战 。 传 统计 算 机 系统 依赖 于 计算 为 中 心 的 计算 和 存储 分 离 的 计算 模型 。 互 
联网 的 广泛 应 用 、 业 务 流 的 日 趋 复杂 和 数据 获取 方式 的 增多 催生 了 大 数据 时 代 的 到 来 ， 随 后 以 “MapReduce” 为 核心 思想 的 各 
类 大 数据 系统 莲 勃 发 展 。 然 而 ， 大 数据 计算 存在 的 单 节 点 存储 容量 小 、 计 算 实时 性 高 、 通 信 频 繁 等 问题 ， 往 往 会 阻碍 计算 性 能 
充分 发 挥 ， 导 致 当前 大 数据 系统 的 效率 下 降 。 





如 图 3-2 所 示 ， 目 前 大 数据 体系 结构 的 相关 研究 在 存储 和 计算 两 方面 展开 。 存 储 问题 主要 表现 为 ， 在 数据 密集 型 应 用 中 ， 系 
统 节 点 内 部 因 传 统 体系 结构 限制 ， 数 据 访问 和 移动 代价 问题 更 为 突出 。 计 算 问 题 主 要 表现 为 需求 的 复杂 和 多 样 性 ， 使 以 CPU 为 
核心 的 通用 计算 模型 难以 完全 应 对 ， 致 使 计算 性 能 低 、 能 耗 高 。 针 对 大 数据 特点 的 新 型 计算 机 体系 结构 也 由 此 被 广泛 关注 ， 且 逐 
渐 成 为 研究 热点 。 如 图 3-2 所 示 的 计算 存储 一 体 化 架构 是 未 来 面向 大 数据 计算 的 高 效 体 系 结构 之 一 ， 其 使 用 最 新 的 三 维 堆 芍 、 广 
入 式 NVM 和 光 通 信 等 技术 ， 能 最 大 限度 地 使 计算 靠近 数据 ， 然 而 针对 此 结构 仍 有 很 多 问题 有 待 解决 。 
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图 3-2 ”计算 存储 一 体 化 架构 


3.4.1 一 体 化 染 构 中 的 大 数据 存储 


在 传统 体系 结构 下 ， 以 CPU 为 计算 中 心 ， 数 据 最 终 被 移入 CPU 并 接受 处 理 ， 存 储 以 分 层 方式 缓解 “存储 墙 ”问题 ， 但 数据 
访问 的 平均 时 间 依 然 是 计算 的 200 倍 。 在 大 数据 背景 下 ， 数 据 密集 型 应 用 陡 增 ， 数 据 更 为 频繁 地 换 进 换 出 ， 其 访问 代价 问题 更 加 
突出 。 因 此 ， 传 统 体系 结构 已 不 能 适应 大 数据 的 计算 特点 ， 针 对 该 问题 主要 有 以 下 两 方面 的 解决 思路 。 


(1) 从 硬件 角度 出 发 ， 使 用 新 硬件 或 新 技术 加 快 数据 访问 


针对 主 存 手 贷 ，NVM 较 传统 硬件 访问 延迟 更 低 ， 三 维 堆 卉 技术 可 有 效 提高 内 存 带 完 。NVM 延 迟 接近 于 DRAM， 且 具有 非 
易 失 性 和 高 容量 。NVM 代 蔡 (或 部 分 代替 ) DRAM 作 为 主 存 使 用 时 ， 由 于 非 易 失 性 ， 数 据 可 直接 从 主 存 读 取 ， 使 内 存 计 算 成 为 


可 能 ， 元 数据 及 热 数据 直接 存储 在 NVM 上 或 利用 其 字 节 寻 址 特点 ， 构 建 主 存 文件 系统 ， 以 上 均 是 加 快 数据 访 问 的 研究 热点 。 三 
维 堆 赭 技术 使 单个 封装 体内 可 推 者 多 个 芯片 ， 从 而 使 芯片 可 直接 互 连 ， 互 连 线 长 度 显著 缩短 ， 因 此 内 存 体积 更 小 、 容 量 更 大 且 速 
度 更 快 。 利 用 eDRAM 或 三 维 堆 亚 内 存 特 性 可 将 更 多 的 内 存 移 至 CPU/GPU 片 内 ， 或 移动 更 多 计算 操作 进入 内 存 ， 如 processing- 
in-memory (PIM) 和 near-data-computing (NDC) 思想 都 是 加 快 数据 访问 很 好 的 尝试 。 


针对 外 存 瓶 颈 ，SSD 作 为 可 量 产 的 新 型 外 部 存储 ， 较 HDD 延 迟 更 低 ; HDFS 等 分 布 式 文件 系统 较 传统 文件 系统 可 靠 性 更 高 、 
容量 更 大 。 针 对 SSD 的 低 延 迟 和 读 写 不 一 致 性 ， 专 门 优化 过 的 日 志 型 文件 系统 能 进一步 挖掘 SSD 潜 力 ， 从 而 提高 数据 访问 效率 ; 
针对 其 特有 的 随机 读 写 特性 ， 优 化 过 的 数据 库 系统 具备 PBfilter、RS-Wrapper、ACR、FClock、AO-DB、HV-recover 和 HF- 
Tree 等 索引 、 人 存储 、 查 询 处 理 、 日 志 恢 复 和 缓冲 区 管理 技术 ， 不 但 能 提高 数据 库 性 能 ， 还 可 延长 SSD 使 用 寿命 。HDFS 作 为 常用 
的 分 布 式 文件 系统 ， 效 率 有 待 提 升 ， 针 对 元 数据 多 维 语义 特征 ， 将 相关 文件 组 织 在 相同 或 相近 的 组 内 ， 可 提高 HDFS 的 数据 访问 
效率 。 


(2) 从 软件 角度 出 友 ， 针 对 不 同 存储 方式 提出 相应 优化 方案 以 提高 系统 性 能 


数据 一 般 以 存储 数据 顺序 、 关 系 表 、 键 值 对 、 存 入 图 数据 库 和 无 结构 等 五 种 形式 存储 。 由 于 待 处 理 数据 量 大 ， 存 储 数据 顺序 
的 B+ 树 结构 已 出 现 写 吞吐 量 低 的 现象 ; 关系 表 的 行 存 储 压缩 率 低 且 投影 操作 效率 低 ， 而 列 人 存储 中 ， 记 录 转 换 为 列 人 存储 需要 额外 
开销 且 选 择 操作 效率 低 ; 键 值 对 的 随机 内 存 访问 代价 高 。 当 前 为 了 优化 上 述 数 据 存储 方式 因数 据 访问 而 带 来 的 性 能 下 降 问 题 ， 在 
写 操 作 频 繁 的 应 用 场景 中 ， 存 储 数据 顺序 方式 使 用 LSM-tree 提 高 写 吞 吐 量 ;为 兼顾 行 存储 和 列 存 储 的 共同 优点 ， 在 分 布 式 系 统 
的 节点 中 使 用 行列 混合 存储 方式 (如 RCFile) 处 理 天 系 表 ; 为 降低 随机 内 存 访问 延迟 并 提高 吞吐 量 ， 使 用 单 指令 多 数据 流 模 式 
(SIMD) 并 发 内 存 访问 键 值 对 数据 。 


3.4.2 一 体 化 架构 中 的 大 数据 处 理 


在 计算 机 体系 结构 中 ， 将 计算 抽象 为 定点 和 浮 点 两 大 类 后 ，CPU 成 了 通用 数据 处 理 中 心 。 然 而 随 着 处 理 数 据 的 日 趋 多 样 和 
复杂 ， 以 CPU 为 代表 的 粗 粒度 计算 形态 已 不 能 完全 应 对 所 有 的 计算 任务 ， 因 此 先后 出 现 了 图 形 图 像 处 理 器 GPU、 现 场 可 编程 门 
阵列 FPGA 和 专用 集成 电路 ASIC 等 细 粒 度 计 算 形态 。 尤 其 随 着 大 数据 时 代 的 到 来 ， 特 定 领域 数据 爆炸 式 增 长 ， 针 对 领域 的 定制 体 
系 结构 被 广泛 关注 ， 而 “定制 计算 ”以 其 计算 性 能 较 传统 计算 几 十 乃至 上 百倍 的 提升 逐步 成 为 当下 研究 热点 ， 并 以 以 下 两 条 主线 
开展 。 


(1) 为 加 速 特定 领域 的 计算 服务 ， 改 进 或 设计 专用 处 理 单元 


就 数据 库 领域 而 言 ， 借 助 NVM 特 性 将 简单 的 与 、 或 、 非 等 逻辑 操作 在 不 使 用 CPU 情 况 下 直接 在 主 存 完成 ， 从 而 实现 
Processing-in-NVM 的 PINATUBO 架 构 ， 可 有 效 加 速 数 据 库 及 图 相关 应 用 。 许 入 式 架 构 因 尺寸 限制 ， 其 上 的 内 存 数据 库 设 计 更 
需 与 硬件 紧密 结合 。 基 于 CPU-GPU 紧 耦合 架构 的 OmniDB 数 据 库 可 实现 混合 处 理 细 粒 度 查询 、 部 分 查询 等 操作 ; 基于 Intel 
Xeon Phi 的 PhiDB 数 据 库 能 有 效 提高 散 列 连接 的 性 能 ; 基于 FPGA 的 数据 库 系 统 可 高 效 对 数据 进行 分 片 。 


就 神经 网 络 类 算法 而 言 ， 对 于 构造 大 型 神经 网 络 ， 传 统 体系 结 构 下 的 集群 环境 不 仅 散 热 问题 严重 ， 而 且 能 耗 惊 人 。 因 此 重新 
设计 该 类 算法 的 专用 处 理 器 成 为 研究 热点 ， 如 “DianNao” 深度 学 习 处 理 器 、“DaDianNao” 多 核 深 度 学 习 处 理 器 、 
“PuDianNao” 通 用 机 器 学 习 处 理 器 、“ShiDianNao” 摄 像 头 上 的 智能 识别 IP 等 使 相关 算法 在 性 能 和 能 效 方面 得 到 显著 提升 。 
针对 神经 网 络 应 用 ， 使 用 Crossbar 结 构 的 ReRAM 作 为 点 积 运算 的 加 速 器 和 存储 器 实现 Processing-in-memory 的 PRIME 架 构 ， 
也 可 有 效 处 理 并 加 速 深度 学 习 相关 应 用 。 


就 虚拟 化 和 云 环境 而 言 ， 生 产 环境 下 大 数据 系统 往往 运行 在 云 平台 上 ， 而 特定 计算 可 通过 GPU 加 速 ， 所 以 GPU 的 虚拟 化 技 


术 至 天 重要 。 例 如 ， 当 前 的 9Virt 方 案由 于 严格 的 影子 页 表 同 步 机 制导 致 随 着 应 用 和 系统 的 复杂 度 提 高 而 性 能 急剧 降低 ， 其 团队 
新 的 研究 成 果 通 过 松散 一 致 性 同步 的 混合 影子 页 表 机 制 ， 较 gVirt 方 案 可 将 性 能 提高 13 倍 。 


(2) 为 加 速 多 领域 的 计算 服务 ， 改 善 专用 处 理 单元 的 通用 性 或 设计 新 的 通用 处 理 单元 


就 硬件 而 言 ， 定 制 硬件 仅 能 加 速 特定 领域 ， 因 此 可 通过 重 塑 处 理 器 加 速 大 数据 系统 并 处 理 多 领域 问题 。 大 数据 系统 需要 广泛 
面 对 各 种 不 同类 型 的 数据 、 应 用 及 场景 ， 然 而 传统 的 硬件 定制 化 仅 针 对 某 些 特 定数 据 、 应 用 及 场景 加 速 ， 使 得 硬件 定制 加 速 的 局 
限 与 大 数据 系统 的 广泛 应 用 产生 矛盾 。 中 科 院 计算 所 的 一 个 研究 小 组 研究 的 可 重 塑 处 理 器 (Elastic Processing Unit, EPU) ， 
以 函数 为 指令 集 ， 即 1 条 指令 完成 1 个 浮 数 ， 完 成 一 个 指令 后 ， 可 在 极 少 的 时 钟 周期 内 完成 重 塑 ， 以 执行 下 一 条 指令 ， 因 此 该 架 
构 能 加 速 大 数据 内 存 计算 的 共性 应 用 ， 面 对 各 种 不 同类 型 的 数据 都 能 缩短 计算 延迟 。 


就 软件 而 言 ， 硬 件 加 速 器 结构 各 异 ， 因 此 通过 加 速 库 消 数 可 间接 加 速 其 上 的 代码 。 硬 件 加 速 器 应 用 领域 有 限 ， 且 编程 困难 ， 
导致 程序 移植 性 差 ， 为 提高 基于 加 速 器 程序 的 可 移植 性 ， 库 函数 成 为 理想 的 加 速 目标 ， 因 为 库 函 数 应 用 广泛 且 基 于 库 函 数 的 代码 
具备 可 移植 性 。 通 过 使 用 基于 硬件 加 速 器 和 三 维 堆 蔷 内 存 重 写 的 库 消 数 ， 数 据 密集 型 应 用 较 Haswell/Xeon Phi 架 构 可 得 到 75 倍 
能 效 提升 。 


3.4.3 一 体 化 染 构 面临 的 挑战 


1) 不 同 存储 器 的 混合 存储 模型 : NVM、SDD 和 HDD 的 容量 依次 增 大 ， 但 访问 速度 和 价格 是 依次 降低 的 ， 单 独 使 用 一 种 存 
储 设备 都 难 达到 高 性 价 比 ， 因 此 对 数据 按 访 问 热度 区 分 ， 采 用 混合 模式 存储 是 未 来 的 研究 方向 之 一 。 


2) 新 型 存储 器 的 文件 系统 设计 : 随 着 存储 介质 的 访问 延迟 越 来 越 低 ， 软 件 开销 占 比 越 来 越 高 。 在 传统 磁盘 存储 系统 中 ， 软 
件 开销 所 占 比例 为 0.3%，PCle 闪 存 卡 系统 中 软件 开销 占 21.9%， 随 着 NVM 的 发 展 ， 预 计 软 件 开销 比例 将 高 达 94.09%。 针 对 如 


3) 更 高 的 抽象 层次 上 设计 专用 处 理 单元 : 对 不 同 应 用 场景 重新 设计 硬件 是 定制 计算 的 局 限 ， 对 大 数据 共性 问题 的 抽象 是 设 
计 专 用 大 数据 处 理 单 元 的 重点 和 难点 。 通 用 的 CPU 为 粗 粒 度 计 算 模式 ， 但 计算 效率 低 ， 专 用 的 FPGA 等 为 细 粒 度 计算 模式 ， 但 编 
程 复杂 ， 结 合 了 两 者 优点 的 “适中 ”的 处 理 单元 和 编程 模型 也 许 会 成 为 未 来 的 研究 方向 之 一 。 


4) 新 型 大 数据 体系 结构 的 系统 生态 圈 建 设 : 大 数据 体系 结构 相关 研究 正如 火 如 茶 地 开展 着 ,新 硬件 和 新 型 体系 结构 如 雨 后 
春笋 般 出 现 ， 但 其 上 的 软件 系统 研发 、 专 门人 才 培 养 和 系统 生态 构建 等 问题 却 少 有 问津 ， 导 致 成 果 较 难 转化 为 实际 生产 力 。 优 秀 
的 大 数据 体系 结构 需 符 合 市 场 需求 并 有 完善 的 生态 系统 与 之 匹配 ， 才 能 发 挥 最 大 效力 ， 而 生态 系统 的 建立 需要 人 人 参与 。 如 何 设 
计 吸 引力 强 、 准 入 门槛 低 且 使 用 友好 的 硬件 和 体系 结构 也 许 会 是 未 来 的 研究 方向 之 一 ， 或 许 在 新 领域 而 非 已 有 领域 使 用 新 型 大 数 
据 体系 结构 加 速 应 用 ， 更 容易 被 人 们 所 接受 。 


3.5 让 续 


在 新 型 存储 介质 中 ，PCM 比 闪存 更 适合 作为 DRAM 的 扩展 。 而 且 ， 在 计算 机 体系 结构 中 将 PCM 上升 到 与 DRAM 同 等 的 地 
位 ， 利 用 PCM 的 按 字 存 取 、 非 易 失 等 特性 ， 有 望 克 服 CPU、DRAM 与 数据 存储 之 间 的 性 能 鸿沟 。 分 层 混 合 存储 技术 将 是 解决 大 
数据 存储 问题 的 有 效 方 法 。 一 方面 是 因为 应 用 数据 本 身 存在 着 访问 频 度 上 的 差别 ， 二 是 将 所 有 数据 统一 存储 无 论 是 经 济 上 还 是 性 


能 上 都 不 可 行 。 分 布 式 存储 技术 将 是 解决 大 数据 存储 与 管理 问题 的 主要 途径 之 一 。 这 一 方面 是 由 于 Hadoop 分 布 式 技术 已 经 为 现 
有 的 大 数据 管理 提供 了 一 种 行 之 有 效 的 存储 方案 ， 而 且 已 经 在 Google、Facebook 等 公司 的 实际 应 用 中 得 到 了 验证 ， 为 大 数据 
未 来 研究 提供 了 有 用 的 借鉴 ; 另 一 方面 也 是 因为 在 大 数据 应 用 中 数据 来 源 、 用 户 等 本 身 存 在 着 天 然 的 分 布 特性 ， 适 合 采 用 分 布 式 
存储 技术 。 


高 效能 的 大 数据 存储 与 管理 非常 重要 ， 其 主要 问题 集中 在 大 数据 存储 技术 、 基 于 新 型 存储 的 大 数据 存储 架构 、 大 数据 管理 等 
方面 。 目 前 虽然 已 上 月 了 一 些 基 本 的 大 数据 存储 架构 、 模 型 与 算法 ， 但 大 都 基于 传统 的 二 级 存储 系统 架构 ， 采 用 了 计算 与 存储 相 分 
离 的 体系 结构 ， 没 有 在 根本 上 克服 大 数据 存储 与 管理 中 的 |/O 性 能 瓶颈 间 题 。 


基于 以 上 背景 和 现状 分 析 ， 未 来 的 挑战 主要 集中 在 高 效能 的 大 数据 存储 体系 结构 、 分 布 式 随机 存 取 文件 系统 、 基 于 新 型 存储 
的 大 数据 管理 系统 等 关键 问题 上 。 
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4.1 5 引言 


大 数据 的 出 现 不 仅 带 来 了 数据 量 的 快速 增长 ， 也 给 传统 数据 管理 与 分 析 技 术 带 来 了 巨大 的 挑战 。 以 关系 数据 库 为 核心 的 传统 
数据 管理 和 分 析 技 术 已 经 越 来 越 难以 满足 实际 应 用 的 需求 ，《Nature》 杂 志 也 指出 ， 对 大 数据 进行 分 析 并 挖掘 其 背后 所 综 含 意 
义 的 需求 从 未 像 现在 这 样 迫切 。 以 Google 为 代表 的 互联 网 公司 先后 提出 了 GFS、MapReduce、Bigtable 等 具有 代表 性 的 云 计 算 
技术 ， 并 众生 出 以 Hadoop 为 代表 的 开源 云 平 台 。 围 绕 这 些 技术 和 平台 ， 学 术 界 和 工业 界 对 传统 数据 管理 技术 进行 了 大 规模 的 改 
进 ， 将 各 种 传统 数据 管理 技术 逐步 迁移 到 去 平台， 取得 了 一 系列 具有 代表 性 的 成 果 。 本 章 首先 回顾 传统 的 数据 分 析 方 法 ， 然 后 对 
大 数据 分 析 方 法 的 新 特点 进行 探讨 ， 最 后 介绍 大 数据 的 不 同 架构 。 
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4.1.1 传统 的 数据 分 析 技 术 


传统 的 数据 分 析 往 往 利用 合适 的 统计 方法 来 分 析 大 量 的 一 手 和 二 手数 据 ， 从 批量 的 、 混 乱 的 数据 中 发 现 、 抽 取 、 精 炼 那些 隐 
藏 的 、 有 价值 的 数据 ， 同 时 识别 出 相关 主题 的 内 在 规律 ， 并 据 此 开发 数据 的 功能 ， 以 使 数据 的 价值 得 到 扩展 和 最 大 化 。 下 面 就 介 
绍 几 个 非常 具有 代表 性 的 传统 数据 分 析 方法 ， 这 些 方法 主要 来 自 统计 学 和 计算 机 科学 领域 [。 


1) 聚 类 分 析 (cluster analysis) 。 这 是 一 个 统计 的 方法 ， 能 够 将 对 象 分 组 和 根据 特征 对 对 象 分 类 。 聚 类 分 析 根 据 一 定 的 特 
征 来 区 分 对 象 并 根据 这 些 特征 把 它们 分 到 不 同 的 类 别 (或 者 簇 ) 中 ， 在 同一 类 中 的 对 象 有 很 高 的 同 质 性 ， 在 不 同类 中 的 对 象 会 有 
很 高 的 异 质 性 。 聚 类 分 析 是 一 种 不 需要 训练 数据 的 无 监督 学 习 方法 。 


2) 因子 分 析 (factor analysis) 。 这 是 针对 描述 多 指标 间或 仅 有 少量 因子 的 元 素 间 关系 的 一 种 分 析 方 法 ， 也 就 是 说 ， 将 几 
个 相近 的 有 关联 的 变量 分 到 一 组 ， 然 后 将 每 个 变量 组 变 为 一 个 指标 (之 所 以 称 为 指标 是 因为 它 是 无 法 观测 的 ) ， 并 且 只 有 部 分 指 
标 被 用 来 展示 原始 数据 的 最 有 价值 的 信息 。 


3) 相关 性 分 析 (correlation analysis) 。 这 是 一 种 从 观察 的 现象 中 确定 相关 性 规律 并 相应 地 进行 预测 和 控制 的 分 析 方 法 。 
在 观察 到 的 现象 中 存在 丰富 的 定量 关系 ， 比 如 相互 联系 、 相 互 依赖 和 相互 制约 。 这 些 关系 可 以 分 为 两 种 类 型 : 函数 关系 ， 它 反 
映 现象 间 严 格 的 依赖 关系 ， 也 可 以 称 为 确定 性 的 依赖 关系 ， 其 中 变量 的 每 个 数值 对 应 于 一 个 或 多 个 确定 的 值 ; @ 相 关 关 系 ， 在 这 
种 关系 中 ， 变 量 之 间 存 在 一 些 不 确定 和 不 精确 的 依赖 天 系 ， 且 变量 的 一 个 数值 可 以 对 应 于 其 他 变量 的 多 个 数值 ， 而 且 这 些 数值 在 
它们 的 均值 周围 呈现 规律 的 波动 。 一 个 典型 的 例子 就 是 很 多 超市 的 客户 在 购买 啤酒 的 同时 也 会 购买 儿童 尿布 。 


4) 回归 分 析 (regression analysis) 。 这 是 一 种 揭示 一 个 变量 和 其 他 变量 相关 性 的 数学 工具 。 基 于 一 组 实验 或 观测 数据 ， 
回归 分 析 能 识别 出 随机 性 掩盖 下 变量 间 的 依赖 关系 。 回 归 分 析 可 以 将 变量 之 间 的 复杂 的 、 不 确定 的 相关 性 变 为 简单 的 、 规 则 的 相 
关 性 。 


5) A/B 测 试 (A/B testing) 。 也 称 为 水 桶 测试 ， 它 是 一 种 通过 比较 测试 组 来 改善 目标 变量 使 之 用 于 确定 计划 的 技术 。 具 体 
来 说 ，A/B 测 试 是 一 种 比较 单个 变量 的 两 个 版 本 的 方式 。 通 过 测试 受 试 者 对 变量 A 或 B 的 反映 来 确定 哪 一 个 更 有 效 ， 但 在 大 数据 
情境 下 会 面临 十 分 巨大 的 测试 量 。 


6) 统计 分 析 (statistical analysis) 。 这 是 一 种 基于 统计 学 原理 的 方法 ， 是 应 用 数学 的 一 个 分 支 。 在 统计 理论 中 ， 随 机 性 和 
不 确定 性 是 通过 概率 论 来 建 模 的 。 统 计 分 析 可 以 针对 大 量 数据 提供 描述 和 推理 ， 描 述 统计 分 析 可 以 总 结 和 描述 数据 集 ， 而 推理 统 
计 分 析 则 可 以 根据 数据 主题 和 随机 变量 得 出 结论 。 统 计 分 析 已 经 广泛 应 用 于 经 济 和 医疗 保健 领域 。 


7) 数据 挖掘 (data mining) 。 它 是 一 个 能 够 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 和 随机 的 数据 中 抽取 隐藏 的 、 未 知 
的 、 但 有 潜在 效用 的 信息 和 知识 的 处 理 过程 。 有 很 多 同 数据 挖掘 相似 的 描述 ， 比 如 知识 发 现 、 数 据 分 析 、 数 据 融合 和 决策 支持 
等 。 数 据 挖掘 通过 对 应 的 分 析 方 法 ， 主 要 完成 如 下 六 个 不 同 任务 : 分 类 、 估 计 、 预 测 、 关 联 分 组 或 关联 规则 、 聚 类 及 描述 和 可 视 
化 。 原 始 数据 被 视 为 形成 知识 的 来 源 ， 而 数据 挖掘 是 一 个 从 原始 数据 中 发 现 知识 的 处 理 过 程 。 原 始 数据 可 能 是 结构 化 数据 ， 比 如 
关系 数据 库 中 的 数据 ， 也 可 能 是 半 结 构 化 数据 ， 比 如 文本 、 图 形 和 图 像 数据 ， 甚 至 是 分 布 式 网 络 中 的 异 构 数据 。 知 识 发 现 的 方法 
可 能 是 数学 的 或 非 数学 的 ， 也 可 能 是 演绎 的 或 者 归纳 的 。 知 识 发 现 可 以 用 于 信息 管理 、 查 询 优 化 、 决 策 支持 和 进程 控制 以 及 数据 
维护 。 


挖掘 方法 一 般 分 为 机 器 学 习 方 法 、 神 经 网 络 方法 和 数据 库 方法 。 机 器 学 习 方 法 可 以 进一步 分 为 归纳 学 习 、 基 于 样 例 的 学 习 和 
遗传 算法 等 。 神 经 网 络 方法 可 以 分 为 前 向 神经 网 络 和 自 组 织 神经 网 络 等 。 数 据 库 方 法 主要 包括 多 维 数据 分 析 或 者 在 线 分 析 处 理 
(On-Line Analytical Processing，OLAP) 以 及 面向 属性 的 归纳 方法 。 在 2006 年 以 前 ， 数 据 挖掘 领域 的 最 有 影响 力 的 前 几 名 算 


法 是 C4.5、K-means、SVM、Apriori、EM、Naive Bayes 和 Cart 等 。 这 些 方法 涵盖 了 分 类 、 聚 类 、 回 归 、 统 计 学 习 、 关 联 分 析 
和 链接 挖掘 等 几乎 所 有 数据 挖掘 领域 里 最 重要 的 问题 。 其 突出 的 应 用 包括 游戏 、 商 务 、 科 学 、 工 程 和 监控 等 。 


[1] Mohamed N, Aljaroodi J.Real-time big data analytics: Applications and challenges [C] .high petformance computing Systems and 
applications, 2014: 305-310. 
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处 在 大 数据 的 时 代 ， 人 们 更 加 关注 如 何 从 海量 的 数据 中 快速 地 抽取 出 关键 信息 以 便 为 企业 和 个 人 带 来 效益 。 此 时 大 数据 分 析 
就 显得 额外 重要 ， 它 其 实 可 以 看 成 是 在 一 类 特殊 数据 上 的 分 析 ， 因 此 仍然 会 有 很 多 传统 的 数据 分 析 方法 适用 于 大 数据 分 析 的 场 
景 。 下 面 是 目前 主要 的 大 数据 分 析 方 法 [1]。 


(1) 实时 与 离线 分 析 


大 数据 分 析 按 实时 性 要 求 可 分 为 实时 分 析 和 离线 分 析 两 种 。 实 时 分 析 主 要 用 于 电子 商务 和 金融 业 ， 因 为 这 类 行业 的 数据 经 常 
变化 ， 快 速 的 数据 分 析 是 必需 的 ， 而 且 分 析 结 果 也 必须 尽快 返回 ， 不 能 有 太 多 延迟 。 大 数据 实时 分 析 的 主要 结构 分 为 两 种 : @ 利 
用 传统 的 关系 数据 库 并 行 处 理 簇 ; 


Q@ 基 于 内 存 的 计算 平台 。 比 如 EMC 的 Greenplum 和 SAP 的 HANA 都 是 实时 分 析 架 构 。 

(2) 交互 式 分 析 

大 数据 交互 式 分 析 则 在 利用 计算 机 自动 化 分 析 能 力 的 同时 ， 充 分 挖 握 人 对 于 信息 的 认 知 能 力 优势 ， 将 人 、 机 的 各 自强 项 进行 
有 机 融合 ， 借 助人 机 交互 式 分 析 方 法 和 交互 技术 ， 辅 助人 们 更 为 直观 和 高 效 地 洞悉 大 数据 背后 的 信息 、 知 识 与 智慧 。 可 视 分 析 是 
大 数据 交互 分 析 中 的 主要 方法 ， 它 能 够 从 该 领域 所 强调 的 认 知 、 可 视 化 、 人 机 交互 的 综合 视角 出 发 建立 高 效 解决 人 机 协同 问题 的 
协作 关系 。 

(3) 概要 构建 


数据 流 的 海量 性 导致 了 在 计算 过 程 中 独特 的 时 间 与 空间 限制 ， 使 得 许多 诸如 查询 处 理 、 数 据 库 操 作 、 挖 掘 算法 等 需要 有 效 执 
行 力 的 处 理 过 程 很 难 在 高 速 数据 流 上 完成 。 为 此 一 种 称 为 概要 构建 的 方法 出 现 了 ， 它 可 以 在 数据 流 处 理 中 结合 多 种 挖 握 和 查询 处 
理 技术 。 主 要 的 概要 方法 包括 采样 、 小 波 变换 、 概 要 (sketches) 和 直方 图 。 这 几 种 方法 简 述 如 下 。 


采样 方法 : 这 是 一 种 思想 简单 并 且 使 用 广泛 的 方法 ， 它 的 优势 首先 在 于 能 通过 可 证 伪 保 证 对 潜在 数据 提供 无 偏 的 估计 ， 其 次 
采样 利用 了 记录 中 元 组 的 原始 表示 ， 可 以 很 方便 地 用 于 其 他 的 应 用 。 近 些 年 来 ， 基 于 随机 采样 的 方法 得 到 了 不 断 发 展 ， 其 中 的 在 
线 聚集 是 一 类 非常 有 代表 性 的 方法 ， 后 面 会 进行 详细 介绍 。 


小 波 变 换 : 这 是 一 种 知名 的 用 于 数据 库 中 分 层 数 据 分 解 和 摘要 的 技术 。 小 波 变化 的 基本 思想 是 将 建立 的 数据 特征 分 解 为 一 组 
小 波 函 数 和 基 函 数 。 该 类 方法 的 特点 是 分 解 的 高 阶 系数 表明 了 数据 中 的 广泛 趋势 ， 而 更 局 部 化 的 趋势 由 低 阶 系数 捕获 。 


概要 (sketches) 方法 : 这 类 方法 的 思想 基本 上 是 将 随机 投影 技术 扩展 到 一 个 时 间 序 列 域 ， 利 用 该 思想 来 确定 所 述 时 间 序 
列 域 的 代表 方法 是 在 2003 年 被 提出 的 。 在 随机 投影 方法 中 ， 我 们 可 以 通过 挑选 K 个 d 维 随机 向 量 把 一 个 q 维 数据 点 降 到 k 维 的 坐标 
系 中 。k 维 随机 变量 的 每 一 个 分 量 来 自 于 均值 为 0 和 单位 方差 的 正 态 分 布 。 


直方 图 : 这 也 是 一 个 数据 摘要 的 主要 方法 ， 它 可 以 沿 着 任意 属性 将 数据 分 成 一 组 范围 集合 并 维护 每 个 “ 桶 ”的 计数 。 因 此 ， 


其 空间 需求 是 由 直方 图 中 “ 桶 ”的 数量 定义 的 。 直 方 图 的 朴素 表示 是 把 数据 离散 化 到 等 长 (等 宽 的 分 区 ) 的 分 区 中 并 存储 这 
些 “ 桶 ”的 频 度 。 从 这 点 来 看 ， 直 方 图 表示 与 Haar 小 波 系数 有 着 简单 的 联系 。 如 果 把 一 个 数据 频 度 分 布 的 小 波 表 示 沿 任意 维度 
构建 出 来 ， 那 么 任意 次 序 的 Haar 系 数 ( 非 归 一 化 的 ) 可 以 表示 等 完 直 方 图 “ 桶 ”中 的 相对 频 度 的 差异 。 


(4) 智能 分 析 


随 着 产业 界 和 科学 界 数据 量 的 爆炸 式 增长 ， 大 数据 的 相关 技术 和 应 用 吸引 了 众多 关注 。 如 何 分 析 大 数据 、 充 分 挖掘 大 数据 的 
潜在 价值 已 成 为 科学 家 们 探讨 的 科学 问题 。 智 能 分 析 和 计算 是 科学 研究 和 工程 实践 中 解决 复杂 问题 的 有 效 手 段 ， 是 人 工 智能 和 信 
息 科 学 的 重要 研究 方向 ， 应 用 计算 智能 方法 进行 大 数据 分 析 具 有 巨大 的 潜力 。 


[1] Mohamed N, Aljaroodi J.Real-time big data analytics: Applications and challenges [C] .high petformance computing Systems and 
applications, 2014: 305-310. 


4.2 ”大 数据 的 实时 分 析 


现在 全 球 每 两 天 产生 的 数据 量 据 估 计 已 经 接近 5 艾 字 节 ， 数 据 量 之 大 、 增 长 之 迅速 前 所 未 见 。 早 在 2007 年 我 们 就 已 经 没有 能 
力 存 储 下 产生 的 所 有 数据 ， 这 就 要 求 对 数据 进行 “ 边 产生 边 处 理 ” 的 管理 方式 ， 即 数据 流 的 管理 方式 。 在 数据 流 模 型 方式 下 ， 数 
据 以 高 速 到 达 ， 相 关 算 法 要 在 严格 的 时 间 和 空间 约束 下 进行 处 理 。 这 里 要 求 算法 首先 要 能 够 充分 利用 有 限 的 资源 (时 间 和 内 
存 ) ， 其 次 要 能 应 对 数据 的 本 质 和 分 布 不 断 变 化 的 情境 。 因 此 “绿色 计算 ”被 提出 来 以 应 对 效率 的 需求 ， 在 流 数 据 处 理 问题 中 ， 
效率 由 以 下 三 方面 组 成 : 准确 度 ; 所 需 的 空间 数量 ;从 训练 样 例 学 习 和 预测 所 需 的 时 间 。 


4.2.1 实时 分 析 的 育 景 和 概念 


在 现实 世界 里 ， 大 数据 的 来 源 多 种 多 样 ， 比 如 科学 实验 、 传 感 器 系统 、 社 交 网络 活 动 、 电 信 数 据 、 摄 像 与 监控 系统 、 日 常 交 
易 与 贷 物流 通 等 。 这 些 数 据 的 数量 十 分 巨大 ， 随 着 时 间 不 断 积累 ， 而 且 其 产生 方式 都 是 实时 的 ， 往 往 都 具有 时 效 性 ， 从 这 些 数据 
中 分 析出 有 价值 的 信息 变 得 越 来 越 迫切 ， 这 也 为 大 数据 实时 分 析 提 供 了 现实 需求 。 大 数据 实时 分 析 的 应 用 前 景 也 十 分 广阔 ， 比 如 
智能 交通 管理 ， 未 来 的 城市 可 以 通过 和 车载 传感器 和 道路 实时 摄像 等 设备 对 交通 情况 进行 实时 分 析 ， 类 似 的 需求 还 可 以 有 金融 市 场 
的 实时 交易 和 监管 、 人 群 秩序 实时 监管 、 军 事 决策 支持 、 大 规模 应 急 反 应 、 智 能 电网 等 1。 


大 数据 实时 分 析 是 指 对 大 规模 的 数据 进行 分 析 ， 利 用 大 数据 分 析 技 术 高 效 快速 地 完成 分 析 任 务 以 达到 近似 的 实时 效果 ， 以 便 
更 及 时 地 反映 数据 的 价值 和 意义 。 数 据 分 析 的 基础 操作 就 是 数据 的 读 写 ， 实 时 分 析 就 要 求实 时 存 取 ， 而 大 数据 的 实时 存 取 需 要 在 
分 布 式 网 络 中 的 不 同 节点 上 完成 ， 因 此 需要 动态 索引 框架 (如 图 4-1 所 示 ) 来 为 之 服务 ， 以 提高 存 取 效 率 。 同 时 ， 大 数据 实时 分 
析 为 了 提高 分 析 效 率 ， 在 传统 技术 基础 上 进一步 提高 数据 分 析 的 速度 与 处 理 能 力 ， 采 用 了 基本 计算 架构 模式 般 可 以 分 为 
三 种 : @ 利 用 传统 的 关系 数据 库 并 行 处 理 徐 ;@ 基 于 内 存 数据 库 的 计算 平台 ; @ 基 于 数据 流 的 处 理 框架 。 比 如 较 早出 现 的 EMC 
公司 的 GREENPLUM 就 属于 第 一 种 ， 它 本 质 上 是 一 个 天 系 型 数据 库 集 群 ， 是 由 多 个 独立 的 数据 库 组 合 而 成 的 逻辑 数据 库 ， 采 用 
了 大 规模 并 行 处 理 架构 (Massively Parallel Processing，MPP) 来 组 织 集群 ， 从 而 通过 并 行 处 理 方式 来 提高 多 个 数据 库 间 的 实 
时 处 理 能 力 。 近 年 来 ， 内 存 计算 技术 发 展 迅速 ， 它 将 交易 型 数据 库 和 分 析 型 数据 库 合 并 为 一 个 内 存 数 据 库 ， 实 质 上 就 是 CPU 直 
接 从 内 存 而 非 硬盘 中 读 取 数 据 ， 这 无 疑 起 到 了 一 个 十 分 明显 的 计算 加 速效 果 ， 比 如 Redis 就 是 一 个 典型 的 内 存 数据 库 系统 各 ， 它 
采用 键 值 对 来 存储 数据 ， 可 以 支持 多 种 数据 类 型 ， 不 但 使 读 写 在 内 存 中 完成 ， 而 且 其 数据 管理 部 分 也 是 全 部 基于 内 存 来 重新 设计 
的 ,包括 数据 缓存 、 快 速算 法 、 并 行 操作 等 都 是 在 内 存 中 完成 。 随 着 大 数据 时 代 的 到 来 ， 实 时 分 析 中 的 数据 往往 是 以 数据 流 的 形 





式 出 现 的 ， 因 此 基于 数据 流 的 处 理 框架 不 断 涌现 ， 比 如 Linkedln 公 司 的 Samza 就 是 一 个 分 布 式 流 数 据 处 理 系统 B]， 它 将 数据 流 
切 分 开 来 ， 以 消息 为 单位 来 进行 处 理 ， 这 些 消息 组 成 不 同 的 消息 队列 后 进入 相应 的 分 布 式 计 算 机 来 完成 后 续 处 理 和 计算 。 


数据 实时 输入 数据 实时 输出 







返回 实时 索引 
动态 索引 框架 


监测 点 动态 家 引 


返回 实时 


y 数据 
碟 
图 4-1 大 数据 实时 读 写 流程 
大 数据 实时 分 析 应 用 在 设计 、 实 现 与 操作 中 得 到 了 长 足 发 展 ， 但 依然 面临 很 多 挑战 ， 我 们 主要 从 五 个 方面 进行 简要 的 分 析 和 


描述 : @ 实 时 事件 传输 : 大 多 数 的 实时 应 用 事件 产生 后 需要 及 时 传输 到 相关 处 理 节点 (主要 分 为 中 心 处 理 节 点 和 分 布 式 中 间 处 理 
节点 ) 以 完成 处 理 过 程 ， 处 理 过 程 也 分 别 对 应 为 预定 义 处 理 (闭环 操作 ) 和 交互 式 处 理 ( 开 环 操作 ) ; @ 实 时 情境 发 现 : 其 主要 
设计 用 来 检测 实时 交易 、 实 时 操作 、 有 异常 事件 等 情境 ， 比 如 交易 市 场 中 的 股票 价格 波动 ， 或 者 是 城市 某 区 域 交 通 发 生 拥 堵 等 ， 这 
需要 对 相关 领域 预先 设置 一 些 规则 来 帮助 检测 ， 进 一 步 可 能 还 需要 设计 能 够 更 改 或 调整 这 些 规则 的 实时 分 析 模 型 ，@ 实 时 分 析 : 
它 可 以 涉及 单个 或 多 个 综合 分 析 服 务 ， 这 些 服务 应 该 能 够 对 规则 和 业务 情境 的 改变 做 出 性 能 预测 和 评估 ， 同 时 它 也 需要 部 署 快速 
的 算法 ， 使 其 能 够 在 有 限 的 资源 和 时 间 内 提供 最 佳 或 次 最 佳 的 服务 ;，@ 实 时 决策 : 基于 实时 分 析 的 结果 ， 它 可 以 选择 改进 当前 操 
作 规 则 或 盈利 能 力 的 最 佳 方案 ， 并 对 其 响应 做 出 最 适合 的 应 对 ， 其 中 最 重要 的 就 是 如 何 定义 业务 或 操作 规则 来 实现 正确 及 时 的 决 
策 ; 加 实时 响应 : 这 涉及 对 实时 决策 定义 的 行为 的 局 动 、 执 行 和 监管 ， 其 过 程 通常 需要 可 靠 和 及 时 的 与 其 他 分 布 式 系统 交互 的 执 
行 任务 。 


[1] Mohamed N, Aljaroodi J.Real-time big data analytics: Applications and challenges [C] .high petformance computing Systems and 
applications, 2014: 305-310. 

[2] Tiago Macedo, Fred Oliveira.Redis Cookbook.O’” Reilly Media, July2011. 

3] 2Z.Zhuang, T.Feng, Y.Pan, H.Ramachandra and B.Stidharan.Effective Multi-sttream Joining in Apache Samza 


Framewotk [C] .2016IEEE International Congress on Big Data (BigData Congress) , San Francisco, CA, 2016, pp.267-274. 


4.2.2 ”实时 分 析 技 术 


实时 分 析 大 数据 往往 会 遇 到 时 间 与 空间 的 限制 。 由 于 实时 产生 的 数据 大 多 以 数据 流 的 方式 进入 分 析 系 统 中 ， 其 特点 十 分 明 
显 。 首 先 ， 数 据 是 无 限 的 ; 其次， 数据 是 实时 到 来 的 ， 再 次 ， 数 据 往往 是 按 序 流 过 来 的 ， 最 后 ， 以 上 特点 导致 了 数据 流 中 的 数据 
无 法 全 部 保存 下 来 ， 这 就 需要 做 一 个 近似 查询 而 不 是 完全 查询 。 以 下 方法 都 是 为 了 应 对 以 上 数据 流 的 特点 而 采用 的 策略 ， 有 时 混 
合 的 方法 会 更 有 效 。 下 面 以 三 个 典型 的 计算 模型 为 例 来 介绍 实时 分 析 的 技术 。 


(1) 滑动 窗口 计算 模型 站 


滑动 窗口 计算 模型 是 基于 以 下 假设 而 来 的 ， 在 给 定 的 一 个 数据 流 处 理应 用 中 ， 最 近 的 数据 比 以 往 的 数据 要 更 有 用 和 更 相关 。 
在 此 情况 下 ， 我 们 回应 查询 所 需要 访问 的 数据 只 包括 最 后 N 个 最 近 的 数据 元 素 即 可 (N 在 此 可 以 作为 参数 ) ， 这 种 计算 模型 也 十 
分 符合 在 规定 的 时 间 与 空间 内 完成 一 定 任务 的 实时 要 求 。 





滑动 窗口 有 基于 顺序 和 局 域 时 间 两 种 定义 方式 。 前 者 定义 的 滑动 窗口 是 在 窗口 内 保存 最 近 到 | 来 的 K 个 元 组 ， 其 大 小 国定 ; 后 
者 定义 的 滑动 窗口 则 是 存储 最 近 T 时 间 内 到 达 的 元 组 ， 其 大 小 可 变 。 滑 动 窗口 查询 也 是 数据 流 上 经 常 使 用 的 一 类 查询 ， 具 有 自身 
独特 的 查询 处 理 方法 例如， 查找 一 个 数据 流 中 的 最 大 值 时 ， 滑 动 窗口 查询 若 计 算 一 个 N 个 元 组 中 的 最 大 值 就 需要 Q (N) 的 空 
间 ， 而 随 着 新 数据 的 到 来 ， 滑 动 窗口 中 的 旧 数 据 就 要 被 淘汰 ， 如 果 当 前 窗口 的 最 大 值 在 某 个 时 刻 移出 了 窗口 ， 那 么 就 要 重新 找 出 
一 个 新 的 最 大 值 。 据 此 可 以 看 到 ， 滑 动 窗口 问题 还 会 涉及 更 多 的 问题 ， 比 如 基本 计数 问题 、 求 和 问题 、 相 似 计算 和 摘要 等 ， 所 以 
可 以 把 很 多 传统 的 查询 问题 和 分 析 方 法 引入 滑动 窗口 模型 中 来 ， 目 前 很 多 工作 都 集中 在 滑动 窗口 连接 、 多 滑动 窗口 查询 优化 及 滑 
动 窗 口中 数据 流 的 挖掘 等 方面 。 


(2) 流 数据 立方 计算 模型 加 


流 数 据 除 了 动态 性 和 瞬时 性 这 两 个 特点 之 外 ， 还 具有 多 元 维度 这 个 重要 的 特点 。 大 多 数 流 数 据 处 于 一 个 多 维 空间 和 相当 低 的 
抽象 层次 ， 而 大 多 数 数据 分 析 人 员 对 在 部 分 维度 组 合 中 相关 高 层 的 动态 变化 更 感 兴趣 。 只 有 对 流 数 据 进行 多 层次 、 多 维度 的 联机 
分 析 处 理 (OLAP) 才能 发 现 高 层 的 动态 变化 和 不 断 演变 的 特点 ， 这 就 要 求 研究 便于 多 维 流 数据 联机 分 析 处 理 的 新 的 体系 结构 。 
流 立方 正 是 这 样 的 一 种 尝试 和 研究 成 果 ， 它 可 以 满足 上 述 对 发 现 数据 流 的 高 层 动态 变化 特征 及 联机 分 析 处 理 的 需要 ， 但 它 需 要 以 
下 三 个 关键 技术 的 支撑 。 

倾斜 时 间 框 架 模型 : 主要 用 来 在 多 分 辩 率 模型 中 记录 时 间 相 关 的 数据 ， 越 近 的 数据 记录 在 越 精细 的 分 辨 率 中 ， 越 远 的 数据 记 
录 在 越 粗 糙 的 分 辨 率 中 。 此 设计 可 以 减少 时 间 相 天 数据 的 整体 存储 需求 并 更 好 地 适应 实际 遇 到 的 数据 分 析 任 务 。 常 见 的 有 三 种 模 
型 ， 即 自然 倾斜 时 间 框 架 模 型 、 对 数 尺度 倾斜 时 间 框 架 模 型 和 渐 近 对 数 倾斜 时 间 框 架 模 型 ， 如 图 4-2 所 示 。 


a) 
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图 4-2 倾斜 时 间 框 架 模型 示意 图 


第 一 种 模型 如 图 4-2a 所 示 ， 按 照 自然 时 间 的 各 种 粒度 来 进行 组 织 ， 从 最 近 的 15 分 钟 、45 分 钟 、24 小 时 直至 7 天 甚至 更 远 ; 
第 二 种 模型 如 图 4-2b 所 示 ， 依 据 对 数 尺度 来 对 时 间 进 行 组 织 ， 从 一 个 15 分 钟 到 两 个 15 分 钟 ， 再 到 4 个 15 分 钟 ， 如 此 按 指数 级 增 
长 ; 第 三 种 模型 实际 上 是 将 快照 根据 新 旧 程 度 的 不 同 存储 到 不 同 的 粒度 级 别 中 。 


实现 观测 层 和 最 小 兴趣 层 : 这 两 个 关键 层 可 以 在 最 小 计算 代价 下 支持 例 行 任务 及 灵活 的 分 析 ， 而 不 是 实现 流 立 方 的 各 个 层 。 
最 小 兴趣 层 也 称 为 M 层 ， 它 既 不 考虑 成 本 效益 也 不 关注 数据 流 的 细节 ;观测 层 则 称 为 O 层 ， 它 需要 对 异常 的 信号 或 者 对 异常 单元 
下 钻 到 较 低 层 来 发 现 低层 异常 后 继续 完成 检查 和 决策 。 


一 个 有 效 的 流 数据 立方 算法 : 因为 流 数据 立方 算法 是 针对 在 线 计算 和 查询 处 理 而 设计 的 ， 所 以 它 需 要 只 沿 一 个 普遍 的 路 径 来 
计算 各 层 而 这 种 计算 中 层 与 层 是 独立 的 。 基 于 以 上 设计 方法 ， 流 数据 立方 可 以 以 合理 的 存储 空间 、 计 算 代价 和 查询 响应 时 间 来 增 
量 地 构建 和 维持 。 


(3) 分 布 式 计算 与 挖 握 模 型 D] 


由 于 网 络 中 的 数据 是 连续 地 到 达 ， 快 速 的 单 遍 扫 描 算法 对 于 实时 查询 处 理 和 流 数 据 挖 掘 就 显得 尤为 必要 ， 但 是 传统 的 方法 已 
无 法 应 对 分 布 式 计算 和 存储 处 理 要 求 。 分 布 式 数据 挖掘 (DDM) 则 主要 解决 数据 分 析 中 与 分 布 式 的 计算 、 存 储 、 交 流 和 人 力 因 
素 相 天 资源 等 有 关 的 问题 ， 与 传统 的 中 心 化 系统 不 同 ， 它 提供 了 无 须 将 数据 收集 到 一 个 单独 中 心 点 的 分 布 式 解 决 方案 ， 如 图 4-3 
所 示 。 可 以 看 到 | 分 布 式 计算 节点 更 贴近 分 布 的 数据 源 ， 这 些 计算 节点 可 完成 部 分 运算 并 在 必要 时 让 本 地 模型 和 中 心 节点 进行 必要 
的 通信 。 这 样 做 有 三 个 好 处 ， 首 先 可 以 通过 分 布 式 的 计算 节点 来 提高 推导 的 并 行程 度 从 而 缩短 计算 响应 时 间 ， 其 次 可 以 仅 让 本 地 
模型 进行 通信 从 而 减少 通信 和 量 并 提高 其 扩展 性 ， 最 后 ， 以 上 两 点 有 助 于 节约 功 耗 。 
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现实 中 很 多 数据 挖掘 任务 都 能 使 用 上 述 分 布 式 模型 来 实现 ， 比 如 离 群 点 检测 ， 这 是 一 种 基于 计算 两 点 间距 离 的 一 类 算法 ， 那 
些 与 其 他 点 的 距离 都 很 远 的 点 就 视 为 离 群 点 ， 而 分 布 式 离 群 点 检测 的 典型 例子 就 是 网 络 入 侵 检测 。 首 先 ， 网 络 入 侵 和 攻击 往往 是 
从 一 组 不 同 的 网 络 上 的 主机 发 起 的 ， 其 形式 是 分 布 式 的 其次， 互联 网 中 的 不 同 主机 的 异 质 性 增加 ， 从 而 导致 同一 子 网 中 的 主机 
安全 需求 也 会 不 一 样 ， 再 次 ， 移 动 和 无 线 网 络 的 动态 性 不 断 增加 ， 其 动态 拓扑 结构 导致 很 难 采取 中 心 化 的 防护 措施 。 在 此 种 情景 
下 ， 有 效 的 防御 和 检测 策略 依赖 于 分 布 式 节点 间 的 协作 ， 这 些 分 布 式 节点 可 以 收集 攻击 的 信息 ， 如 果 可 以 共享 网 络 审计 数据 、 主 
机 监视 名 单 等 ， 那 么 一 个 更 好 的 全 球 网 络 模式 就 可 以 建立 起 来 。 


当然 ， 除 了 离 群 点 检测 以 外 ， 很 多 方法 诸如 聚 类 、 


[1] Heer J, Kandel S. Interactive Analysis of Big Data [J] . 


[2] Hellerstein J, Avnutr R, Chou A, et 
Computer, 1999, 32 (8) : 51-59. 
[3] Hellerstein J, Avnur R, Chou A, et 
Computer, 1999, 32 (8) : 51-59. 
[4] Hellerstein J, Avnur R, Chou A, et 


Computer, 1999, 32 (8) : 51-59. 


4.3 ”大 数据 的 交互 式 分 析 


al. Interactive 


al. Interactive 


al. Interactive 


频繁 项 挖掘 、 


分 类 和 摘要 都 可 以 通 


Data 


Data 


Data 


Analysis 


Analysis [ 


Analysis [ 


J]. 








分 布 式 的 方式 来 解决 。 


The ACM Magazine for Students, 2012, 


The 


. The 


. The 


19 (1) : 


Contro 


Contro 


Contro 





50-54. 


Project. 


Project. 


Project. 





NJ: IEEE 


NJ: IEEE 





NJ: IEEE 


大 数据 已 经 出 现在 各 个 领域 。 在 科学 界 ， 数 据 驱 动 的 第 四 次 科学 进步 的 呼声 日 益 高 涨 ， 而 工业 界 对 数据 科学 家 的 需求 也 呈 指 
新 的 用 户 接 口 不 仅 可 以 为 我 们 使 用 大 数据 带 


数 级 增长 。 在 这 些 现象 的 背后 ， 如 何 有 效 地 分 析 数 据 成 为 了 所 有 话题 的 中 心 。 
会 改变 我 们 使 用 大 数据 的 方式 ， 甚 至 可 以 在 人 机 交互 、 机 器 学 习 和 分 布 式 系统 等 领域 引发 更 多 有 价值 的 研究 。 


来 更 大 的 便利 ， 


因此 ， 


在 人 类 世界 和 赛 博 空间 、 思 维 空间 等 环境 下 ， 交 互 如 同 交流 一 般 ， 可 以 通过 各 种 承载 信息 的 载体 、 媒 介 或 界面 ， 来 处 理 信息 
的 交流 、 能 量 的 交换 和 物质 流动 的 过 程 。 尤 其 在 大 数据 时 代 ， 交 互 式 分 析 有 着 更 加 复杂 的 要 求 和 实现 。 


(1) 交互 式 分 析 特 点 


与 非 交 互 式 数据 处 理 相 比 ， 交 互 式 数 据 处 理 更 显得 灵活 、 直 观 和 便于 控制 。 系 统 与 操作 人 员 间 以 人 机 对 话 的 方式 一 问 一 答 ， 
即 操作 人 员 提 出 请 求 ， 将 数据 以 对 话 的 方式 输入 ， 系 统 便 提 供 相应 的 数据 或 提示 信息 ， 引 导 操 作 人 员 逐 步 完 成 所 需 的 操作 ， 直 至 
获得 最 后 的 处 理 结果 。 交 互 式 分 析 的 目标 或 者 说 要 求 可 以 归结 为 以 下 几 个 方面 。 


第 一 ， 帮 助 数据 分 析 人 员 以 一 种 快捷 和 循环 的 方式 来 对 假设 或 问题 进行 探索 ， 使 数据 探索 过 程 可 以 按照 人 类 思考 的 速率 来 完 
成 。 

第 二 ， 既 要 满足 专业 人 员 更 高 效 的 数据 分 析 要 求 ， 也 要 使 缺少 编程 经 验 的 人 更 好 地 完成 数据 分 析 任 务 ， 因 为 很 多 领域 的 专业 
人 员 并 不 一 定 熟悉 计算 机 的 相关 技术 。 


第 三 ， 要 注意 交互 式 分 析 的 延迟 时 间 和 接口 的 复杂 程度 ， 因 为 显著 的 延迟 或 过 于 复杂 的 接口 不 仅 会 阻碍 分 析 的 过 程 ， 也 会 严 
影响 分 析 的 广度 和 深度 。Google 工 程 师 们 经 过 长 时 间 研 究 发 现 ， 即 使 只 增加 200ms 的 计算 延迟 也 会 导致 用 户 搜索 次 数 的 明显 
下 降 。 


第 四 ， 在 现 阶 段 大 数据 环境 下 ， 由 于 数据 的 海量 性 和 多 样 性 ， 传 统 的 交互 式 分 析 方 法 和 工具 无 法 满足 人 机 交互 的 直观 性 ， 
此 如 何 完成 可 视 化 的 交互 成 为 了 新 的 研究 热点 。 一 张 图 片 的 信息 量 往往 胜 过 干 言 万 语 ， 而 且 其 直观 性 和 显著 性 都 十 分 明显 。 图 4- 
4 展示 了 ScholarExplorer 中 对 一 位 学 者 的 相关 研究 信息 展示 ， 包 括 了 合作 学 者 、 合 作 单 位 或 机 构 、 相 关 期 刊 、 发 文 量变 换 、 研 究 
领域 、 研 究 兴趣 变化 及 师 生 关系 等 ， 而 且 可 以 根据 个 人 的 需求 进行 更 小 范围 或 领域 的 查询 交互 。 由 此 可 以 看 到 可 视 化 技术 很 自然 
地 被 用 来 完成 交互 式 分 析 ， 尤 其 是 大 数据 的 交互 式 分 析 更 需要 可 视 化 技术 。 
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图 4-4 ”Scholar Explorer 中 的 学 者 信息 展示 


(2) 大 数据 交互 式 分 析 技 术 


大 数据 交互 式 分 析 的 本 质 是 从 数据 中 获取 信息 并 形成 知识 的 认 知 过 程 ， 既 然 是 认 知 过 程 就 需要 对 其 进行 模型 化 : 一 种 观点 从 
信息 论 出 发 ， 认 为 认 知 主体 会 根据 需求 来 构建 有 意义 的 信息 ， 在 数据 内 在 意义 与 需求 这 个 外 部 环境 间 不 断交 互 来 产生 认 知 摘 述 ; 
另 一 种 观点 从 认 知 理论 出 发 ， 认 为 认 知 主体 会 将 外 部 的 信息 刺激 融入 本 身 已 具有 的 知识 体系 内 ， 或 者 丰富 自身 体系 ， 或 者 根据 已 
有 的 知识 利用 新 的 信息 构建 新 的 知识 。 但 无 论 哪 种 理论 ， 其 技术 基础 都 依赖 信息 的 查询 和 检索 Bl， 因 此 交互 式 系 统 的 设计 一 般 是 
从 数据 的 存储 开始 。 存 储 决定 了 查询 的 设计 和 效率 ， 常 用 的 存储 方式 包括 行 存储 、 列 存储 和 混合 存储 ， 由 此 可 以 设计 相应 的 查询 
语言 和 查询 模型 ， 交 互 式 分 析 中 查询 语言 要 简单 易 行 ， 因 为 有 很 多 非 专 业 人 员 也 需要 使 用 查询 语言 ， 查 询 模 型 可 以 有 树 形 或 者 图 
形 等 ， 根 据 数 据 实际 的 特点 来 决定 ， 最 主要 的 影响 因素 应 该 是 响应 时 间或 查询 延迟 ， 这 直接 影响 用 户 的 交互 体验 。 最 后 是 查询 结 
果 的 展示 ， 此 时 不 仅 需 要 把 当前 结果 有 效 地 展示 给 用 户 ， 还 要 能 够 与 用 户 完成 交互 ， 通 过 结果 信息 来 刺激 用 户 的 认 知 过 程 。 为 了 
实现 上 述 任务 ， 交 互 界面 首先 应 该 能 为 用 户 提 供 检索 和 查询 功能 ， 其 次 还 要 能 够 提供 对 前 步 结果 的 反馈 方式 来 为 下 一 步 的 分 析 提 
供 必 要 的 指导 ， 最 后 要 以 贴 合 人 类 认 知 接受 的 速率 来 设计 接口 的 复杂 程度 。 


以 往常 见 的 交互 接口 往往 是 查询 语言 的 编辑 界面 ， 这 样 对 于 非 专 业 人 员 来 说 还 是 有 一 定 的 障碍 ， 因 此 信息 的 可 视 化 与 人 机 交 
互 的 结合 成 为 了 交互 式 分 析 新 的 研究 方向 。 信 息 可 视 化 技术 利用 计算 机 作为 手段 来 增强 人 们 对 信息 的 认 知 能 力 ， 人 机 交互 则 提供 
界面 来 完成 信息 的 交换 与 认 知 分 析 ， 如 图 4-5 所 示 ， 可 视 化 交互 技术 就 是 一 个 “数据 一 知识 一 数据 ”的 循环 过 程 ， 它 依赖 于 可 视 
化 技术 和 自动 化 分 析 技 术 两 个 部 分 ， 二 者 的 互动 与 协作 可 以 完成 从 数据 中 获取 知识 的 功能 。 在 此 特别 指出 的 是 ， 分 析 结 果 的 展示 
部 分 很 重要 ， 它 决定 了 能 否 更 有 效 地 呈现 出 其 内 在 的 知识 并 启发 认 知 主体 的 进一步 指示 来 完成 下 一 步 的 分 析 任 务 。 如 图 4-6 所 
示 ， 图 4-6a 中 的 美国 城市 分 布 是 以 点 的 方式 来 描述 的 ， 图 4-6b 中 的 美国 城市 分 布 是 以 密度 的 方式 来 描述 的 ， 其 中 包含 的 认 知 导 
向 是 完全 不 同 的 ， 而 且 知 识 的 精确 性 也 不 同 。 由 此 可 见 结果 展示 出 的 知识 是 由 任务 环境 来 决定 的 ， 同 时 也 受 认 知 主体 的 影响 ， 应 
该 对 它 有 效 地 控制 。 
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图 4-6 ”美国 城市 分 布 的 不 同 展示 效果 站 
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4.4” 云 在 线 肾 集 


实时 分 析 的 特点 和 交互 式 分 析 的 特点 可 以 有 机 地 结合 在 一 起 ， 在 实时 处 理 分 析 数 据 的 同时 兼顾 与 用 户 间 的 交互 过 程 ， 而 基于 
云 环境 的 在 线 聚集 技术 正好 体现 了 二 者 的 结合 。 实 时 分 析 在 不 必得 到 所 有 数据 的 情况 下 就 能 完成 当前 的 分 析 并 给 出 一 个 有 置信 度 
的 结果 ， 与 此 同时 还 能 让 用 户 及 时 了 解 到 当前 的 进度 和 获得 临时 结果 ， 用 户 可 以 据 此 决定 自己 是 否 要 继续 处 理 数据 。 下 面 就 来 介 
绍 在 线 聚集 的 方法 和 实现 过 程 。 


4.4.1 云 在 线 聚集 技术 的 背景 和 概念 


聚集 查询 是 一 种 非常 重要 的 数据 库 查询 ， 通 过 它 我 们 可 以 对 数据 库 中 的 有 关 数 据 进 行 一 些 统计 分 析 。 关 系数 据 库 的 聚集 查询 
可 由 SQL 内 置 的 聚集 查询 函数 来 实现 ， 一 般 用 户 最 常用 的 聚集 函数 包括 Sum、Count、Avg、Max 以 及 Min 等 。 关 系数 据 库 中 执 
行 聚集 查询 的 结果 是 精确 值 ， 但 是 当面 对 海量 数据 时 ， 此 类 查询 可 能 需要 很 长 一 段 计算 时 间 才 能 将 系统 结果 返回 给 用 户 。 考 虑 到 
实际 应 用 中 大 多 数 用 户 感 兴趣 的 往往 只 是 整个 数据 集 的 一 个 概述 ， 也 就 是 说 ， 只 要 精度 足够 ， 估 计 的 结果 也 可 以 被 接受 。 


在 线 聚集 (Online Aggregation，OLA) 就 是 将 聚集 查询 操作 以 在 线 化 的 方式 加 以 实现 ， 即 在 查询 处 理 的 过 程 中 ， 对 数据 
库 中 的 数据 进行 随机 化 采样 ， 然 后 用 采样 得 到 的 数据 样本 去 完成 基于 统计 学 原理 的 有 关 计 算 ， 由 计算 结果 可 以 估计 出 查询 结果 ， 
并 返回 真实 结果 所 在 的 置信 区 间 。 其 基本 的 处 理 框架 如 图 4-7[1] 所 示 。 





图 4-7 ”在 线 聚 集 的 基本 处 理 框架 


OLA 最 早 于 20 世 纪 90 年 代 在 关系 数据 库 领 域 提出 ， 后 期 有 不 少 学 者 对 在 线 聚 集 开展 了 广泛 的 研究 ， 并 取得 丰富 的 研究 成 
果 。 然 而 相关 成 果 在 天 系数 据 库 领 域 带 来 的 市 场 价值 却 很 有 限 ， 原 因 有 两 点 : 首先 ， 在 线 聚 集 要 求 查 询 处 理 的 数据 以 随机 顺序 出 
现 ， 这 与 排序 、 索 引 等 查询 优化 策略 的 原则 相 违背 ， 因 此 在 已 有 的 关系 数据 库 系统 上 实现 在 线 聚集 需要 对 其 内 核 进行 大 规模 改 
动 。 其 次 ， 在 线 聚 集 的 主要 目标 是 缩短 查询 运行 时 间 和 节省 软 硬 件 资源 ， 然 而 对 于 一 个 非 弹性 的 数据 中 心 ， 这 个 目标 对 用 户 的 吸 
引力 并 不 大 。 


随 着 云 技术 的 出 现 ， 在 云 计 算 环 境 下 在 线 聚集 才 显现 出 了 其 巨大 的 商业 价值 。 首 先 ， 快 速 分 析出 海量 数据 背后 所 至 含 的 知识 
对 企业 的 决策 支持 具有 重要 的 商业 意义 ; 其 次 ， 云 计算 的 运营 模式 是 一 种 称 为 “ 即 用 即 付 ” 


(pay as you go) 的 模式 ， 这 也 意味 着 节省 数据 分 析 时 间 就 等 于 节约 计算 资源 ， 从 而 降低 企业 的 运营 成 本 。 但 云 环境 本 身 
的 数据 存储 和 处 理 特 点 也 使 得 在 线 聚 集 技术 无 法 直接 应 用 到 云 环境 中 : 首先 ， 云 环境 下 数据 存储 基本 单位 是 块 (block) ， 而 天 
系数 据 库 则 是 元 组 (tuple) ， 块 的 粒度 远大 于 元 组 ， 处 理 的 粒度 是 不 一 样 的， 而 在 线 聚集 的 采样 都 是 基于 单条 数据 的 (也 就 是 
元 组 级 别 的 ) ; 其 次 ， 在 线 聚集 处 理 中 ， 其 结果 的 精度 提升 是 随 着 样本 量 的 增加 而 变化 的 ， 所 以 数据 处 理 的 过 程 必须 是 非 阻塞 式 
的 (可 以 直观 理解 为 流 数 据 的 处 理 过 程 ) ， 而 当前 包括 MapReduce 在 内 的 一 些 云 环境 下 的 数据 处 理 框架 大 多 是 阻塞 式 的 ， 导 致 
在 线 聚集 技术 无 法 直接 应 用 于 这 些 处 理 框 架 之 上 。 所 以 基于 云 计 算 环 境 的 在 线 聚 集 系统 需要 进一步 设计 才能 在 云 计算 环境 中 实 
现 ， 如 图 4-8 所 示 。 


在 线 聚 集 包 装 器 ( Wrapper ) 
Map Combine Reduce 
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图 4-8” 云 环境 下 的 在 线 聚集 实现 框架 口 
从 图 4-8 中 可 以 看 到 该 框架 主要 包含 以 下 四 个 部 分 。 


1) 用 户 界面 : 是 用 户 与 整个 系统 进行 交互 的 部 分 ， 主 要 有 三 个 功能 。 首 先是 提供 用 户 查 询 接口 ， 其 查询 语句 可 以 是 最 常用 
的 SQL 或 者 类 SQL 的 语句 ， 也 可 以 是 shell 脚 本 命令 ;其 次 要 能 够 准确 和 直观 地 对 系统 返回 的 相关 结果 进行 展示 ; 最 后 ， 用 户 可 以 
对 系统 参数 进行 个 性 化 设置 。 


2) 查询 引擎 : 对 接收 到 的 用 户 查询 请 求 进行 分 析 ， 首 先 对 查询 语句 进行 解析 ， 优 化 解析 过 的 语句 并 转换 成 以 有 向 无 环 图 形 
式 表达 的 MapReduce 作 业 ， 然 后 将 该 作业 转换 成 在 线 模 式 的 作业 以 实现 在 线 聚集 。 即 通过 相关 的 包装 器 (wrapper) 完成 原始 
MapReduce 作 业 的 在 线 化 处 理 。 


3) 在 线 聚集 执行 器 : 其 是 系统 的 核心 部 分 ， 需 要 实现 以 下 三 个 功能 。 首 先 利用 统计 学 知识 对 采样 样本 进行 准确 的 计算 ， 得 
到 结果 估计 和 相应 的 精度 范围 ， 其 次 保存 当前 查询 结果 ， 以 便 随 着 采样 量 的 增加 进行 增 量 计算 ; 最 后 将 上 述 结果 返回 给 用 户 ， 并 
给 出 估计 的 查询 执行 进度 ， 以 便 用 户 选择 是 否 继续 执行 查询 。 图 4-8 中 该 组 成 部 分 中 的 M、C、R 分 别 代 表 Map、Combine 以 及 


Reduce 过 程 。 


4) 数据 管理 器 : 这 部 分 主要 与 数据 存储 及 采样 相关 。 需 要 保存 的 数据 都 存储 在 HDFS 中 ， 内 容 包 括 原 始 的 数据 以 及 元 数据 
等 。 此 外 数据 采样 的 工作 也 由 数据 管理 器 统一 管理 。 


[1] 总 祥 . 云 环境 下 在 线 聚 集 关键 问题 研究 [D] . 北京 : 中 国人 民 大 学 ，2016. 
[2] 总 祥 . 云 环境 下 在 线 聚 集 关键 问题 研究 [D] . 北京 : 中 国人 民 大 学 ，2016. 


4.4.2 云 在 线 聚集 的 关键 技术 


在 线 聚集 技术 的 核心 是 由 数据 采样 、 结 果 估计 与 统计 推理 ， 以 及 流水 化 处 理 过 程 三 部 分 组 成 ， 下 面 就 分 别 介绍 这 几 个 方面 。 
(1) 数据 采样 的 概念 及 在 数据 库 领 域 中 的 实现 


数据 采样 (data sampling) 是 在 线 聚集 最 核心 的 技术 之 一 。 在 线 聚 集 正 是 通过 从 大 规模 样本 中 选择 少量 的 样本 来 减少 时 间 
复杂 度 的 ， 因 此 选择 的 样本 质量 好 坏 将 直接 影响 在 线 聚集 估 计 结 果 的 优 务 。 采 样 在 统计 学 中 有 很 长 的 研究 历史 ， 其 理论 基础 是 比 
较 完备 的 。 总 体 来 看 ， 采 样 可 以 分 为 概率 采样 (probability sampling) 和 非 概率 采样 (non-probability sampling) 两 大 类 。 
换 句 话 来 说 ， 按 照 随机 化 原则 的 采样 就 是 概率 采样 ， 不 按照 随机 化 原则 进行 的 采样 则 是 非 概 率 采样 。 非 概率 采样 具有 很 大 的 不 确 
定性 ， 所 以 在 研究 中 使 用 最 多 的 还 是 概率 采样 ， 下 面 也 主要 介绍 概率 采样 技术 。 


一 般 来 说 ， 我 们 最 常见 到 的 都 是 概率 采样 。 这 种 采样 主要 基于 传统 概率 论 ， 认 为 如 果 要 使 样本 具有 代表 性 ， 就 要 遵循 随机 化 
采样 原则 ， 即 整个 采样 的 过 程 是 完全 随机 化 完成 的 。 概 率 采 样 一 般 要 满足 三 个 基本 要 求 : 随机 性 、 可 行 性 和 信息 性 。 


概率 采样 主要 有 简单 随机 采样 (simple random sampling) 、 系 统 采 样 (sys-tematic sampling) 、 分 层 采 样 (stratified 
sampling) 、 整 群 采样 (cluster sam-pling) 和 多 阶段 采样 (multi-stage sampling) 等 。 下 面 假设 从 样本 量 为 100 的 总 体 中 
抽取 20 个 样本 ， 则 以 上 几 种 基本 概率 采样 方法 的 示意 图 如 图 4-9 所 示 ， 图 中 的 每 个 点 代表 一 个 样本 ， 由 于 多 阶段 采样 与 整 群 采 样 
类 似 所 以 未 给 出 图 示 。 
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图 4-9 ”概率 采样 的 基本 方法 示意 图 


目前 数据 库 领 域 中 所 采用 的 采样 方法 基本 都 属于 概率 采样 ， 很 多 学 者 从 数据 库 自 身 数据 组 织 结构 和 存储 方式 的 特点 出 友 ， 基 
于 上 述 概率 采样 方法 设计 了 很 多 新 的 采样 方法 ， 其 大 致 分 类 如 下 : Q@ 和 迭 代 式 (iterative) ， 一 次 得 到 一 个 符合 条 件 的 样本 ， 如 此 
有 反复 执行 下 去 ， 直 到 样本 量 达 到 要求; 


@ 批 处 理 式 (batch) ， 一 次 得 到 一 组 符合 条 件 的 样本 ， 这 种 方式 是 为 了 减少 实际 采样 过 程 中 读 取 磁盘 的 次 数 ; @ 顺 序 式 
(sequential) ， 这 类 采样 算法 通过 对 文件 的 顺序 扫描 就 可 以 得 到 随机 样本 ; @ 革 水 池 式 (reservoir) ， 本 质 上 还 是 一 种 顺序 式 
采样 ， 但 是 这 类 方法 可 以 用 于 样本 总 量 未 知 的 采样 。 


(2) 结果 估计 与 统计 推理 


上 面 通过 采样 算法 得 到 的 样本 作为 基本 的 数据 处 理 对 象 ， 接 下 来 就 需要 利用 估计 方法 ， 基 于 一 定 的 统计 手段 将 样本 的 结果 扩 
展 到 全 体 数据 之 上 。 佑 计 方 法 有 很 多 ， 但 是 对 其 基本 要 求 是 要 满足 无 偏 的 (unbiased) 和 一 致 的 (consistent) 估计 。 所 谓 无 
偏 的 是 指 在 多 次 、 反 复 的 估计 过 程 中 ， 所 有 估计 值 的 均值 (或 者 说 期 望 ) 要 等 于 真实 的 结果 。 而 估计 的 一 致 性 则 是 指 随 着 样本 量 
的 增 大 ， 佑 计 结 果 应 该 越 来 越 接近 于 真实 结果 。 


目前 在 线 聚集 的 已 有 方法 中 估计 方法 主要 分 成 两 大 类 : 


1) 利用 中 心 极限 定理 : 中 心 极限 定理 的 表达 形式 有 多 种 ， 其 中 最 常用 的 是 下 述 独立 同 分 布 的 中 心 极限 定理 。 设 随机 变量 
X1，X2，…，Xn，… 相 互 独立 ， 服 从 同一 分 布 ， 且 具有 数学 期 望 和 方差 如 式 (4-1) 所 示 : 


E(X)=1, DAD=0>0, (k=1,2,.) ( 4-1) 


则 当 n 充 分 大 时 ， 有 式 (4-2) 成 立 : 


ta (二 (于 泡 : 


如 果 将 上 式 的 左边 改写 成 式 (4-3) : 


-KH ( 4-3 ) 


则 上 述 的 结果 还 可 以 表述 成 当 n 充 分 大 时 ， 有 式 (4-4) 成 立 : 


i (4-4 ) 
一 一 
O/ | 7 ( ) 
或 者 有 式 (4-5) 成 立 : 
XY:N(u,o/n) ( 4-5 ) 


除 此 以 外 ， 还 有 一 些 研究 工作 尝试 利用 Bootstrap 方 法 来 解决 在 线 聚集 的 问题 。Bootstrap 本 质 上 是 一 种 蒙特 克 罗 方 法 ， 需 
要 对 原始 数据 进行 反复 重 采样 ， 然 后 根据 这 些 重 采 样 样本 来 估计 参数 的 值 。 这 种 方法 的 好 处 就 是 不 用 在 出 现 新 的 聚集 函数 时 重新 
进行 估计 方法 的 推导 。 缺 点 是 计算 较为 复杂 ， 且 不 是 对 所 有 的 聚集 函数 都 有 效 。 


2) 利用 贝 叶 斯 理论 : 这 种 方法 的 优点 是 可 以 通过 贝 叶 斯 理论 在 一 定 程度 上 避免 前 述 方法 中 遇 到 的 数据 分 布 和 采样 质量 问 
题 ， 但 是 该 算法 的 假设 性 较 强 ， 具 体 的 算法 实现 也 相对 复杂 ， 而 且 仅 能 支持 包含 一 个 MapReduce 作 业 的 结果 估计 。 在 线 聚集 除 
了 给 出 一 个 估计 结果 之 外 ， 还 会 给 出 一 个 精度 范围 ， 也 就 是 当前 估计 结果 和 真实 结果 之 间 的 差距 。 正 是 有 了 这 个 精度 范围 ， 用 户 
才 可 以 决定 精度 是 否 达到 要 求 以 及 何 时 停止 执行 查询 ， 这 也 是 在 线 聚集 可 应 用 于 实际 数据 分 析 的 基础 。 


从 已 有 的 研究 工作 来 看 ， 精 度 范围 的 表达 方式 也 主要 有 如 下 两 大 类 。 
1) 给 定 置 信 度 ， 返 回 相 应 的 置信 区 间 ， 这 是 目前 在 线 聚集 精度 范围 的 主要 衡量 方式 。 


2) 收敛 曲线 (convergence curve) 。 它 的 基本 思想 是 在 查询 的 过 程 中 ， 不 断 比较 当前 结果 和 其 前 一 个 相 邻 结果 直接 的 差 
距 ， 从 而 表现 出 结果 质量 的 差异 。 


(3) MapReduce 的 流水 化 


在 线 聚集 的 整个 处 理 过 程 以 一 种 流水 化 (pipeline) 的 方式 进行 ， 如 果 数 据 操作 的 过 程 中 出 现 阻 塞 (block) ， 就 会 严重 影 
响 算 法 的 执行 效率 。 在 云 计算 环境 下 ， 如 果 采 用 MapReduce 作 为 在 线 聚 集 基本 处 理 的 框架 ， 就 需要 对 其 进行 流水 化 处 理 ， 因 为 
原生 的 MapReduce 是 批 处 理 模式 。 面 对 在 线 聚 集 的 这 种 需求 ， 原 生 的 MapReduce 显 然 无 法 满足 。 


MapReduce 流 水 化 方法 有 很 多 ， 这 里 主要 介绍 两 种 。 一 种 常见 方法 的 基本 思想 就 是 将 Map 阶 段 处 理 完 的 数据 定期 发 送 至 
Reduce 段 进行 后 续 处 理 ， 这 种 方法 实现 起 来 较为 简单 ， 但 是 在 扩展 性 上 相 较 原生 的 MapReduce 稍 显 不 足 。 另 外 一 种 称 为 
HOP (Hadoop Online Prototype) 的 方法 是 一 种 更 为 完善 的 MapReduce 流 水 化 方案 。HOP 的 基本 思想 是 要 实现 MapReduce 
的 完全 流水 化 ， 为 了 达到 这 一 目的 ，HOP 在 两 个 层次 间 实 现 了 管道 。 一 方面 HOP 可 以 实现 一 个 作业 内 部 Map 任 务 和 Reduce 任 


务 之 间 的 流水 化 ; 另 一 方面 HOP 还 可 以 实现 不 同 作业 之 间 的 流水 化 ， 也 就 是 说 当 某 个 查询 是 由 多 个 MapReduce 作 业 构 成 

时 ，HOP 可 以 实现 前 后 相 接 的 两 个 MapReduce 作 业 之 间 的 流水 化 。 前 者 是 通过 动态 控制 Map 任 务 与 Reduce 任 务 之 间 的 数据 传 
输 粒 度 来 实现 ， 而 后 者 则 是 通过 “快照 ” (snapshot) 的 方式 予以 实现 。HOP 在 实现 MapReduce 流 水 化 的 同时 也 保留 了 原生 
MapReduce 扩 展 性 等 优点 ， 因 此 非常 适合 作为 云 环境 下 在 线 聚集 实现 的 基础 平台 。 


4.5 大 数据 的 智能 分 析 


计算 智能 是 人 工 智能 发 展 的 最 新 阶段 ， 是 在 受到 大 自然 智慧 和 人 类 智慧 的 局 发 下 设计 出 来 的 一 类 解决 复杂 问题 方法 的 统称 。 
如 图 4-10 所 示 ， 传 统 的 智能 分 析 方 法 往往 需要 事先 设计 算法 ， 建 立 精确 的 数学 或 者 逻辑 模型 ( 常 称 为 算法 ) ， 通 过 输入 来 获得 
相应 的 输出 并 据 此 修改 模型 本 身 ， 而 当前 智能 分 析 的 主流 方法 则 更 依赖 数据 ， 它 与 传统 的 人 工 智 能 相 比 最 大 特点 就 是 不 需要 建立 
问题 本 身 的 模型 ， 也 不 依赖 于 知识 表示 ， 而 是 在 观测 数据 上 直接 对 输入 和 输出 信息 进行 处 理 (训练 过 程 ) ， 这 样 可 以 直接 获得 一 
个 模型 来 拟 合 输入 与 输出 的 映射 天 系 。 恰 恰 这 种 特点 非常 适合 于 解决 大 数据 分 析 中 那些 由 于 难以 建立 有 效 的 形式 化 模型 而 导致 用 
传统 技术 难以 解决 甚至 无 法 解决 的 问题 。 
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图 4-10 传统 学 习 方法 与 深度 学 习 方 法 





近年 来 ， 计 算 智 能 理论 与 技术 发 展 迅 速 ， 在 图 像 处 理 、 模 式 识 别 、 知 识 获取 、 经 济 管理 、 生 物 医学 、 智 能 控制 等 许多 领域 都 
得 到 了 广泛 应 用 ， 并 取得 了 一 系列 令 人 鼓舞 的 研究 成 果 。 同 时 ， 反 过 来 看 ， 大 数据 也 给 计算 智能 发 展 带 来 新 的 挑战 与 机 遇 [1]。 


四 郭 平 ， 王 可 ， 罗 阿 理 ， 等 .大 数据 分 析 中 的 计算 智能 研究 现状 与 展望 [J] . 软件 学 报 . 2015，26 (11) : 3010-3025 . 


4.5.1 大 数据 分 析 中 的 计算 智能 


一 般 来 说， 计算 智能 的 技术 基础 主要 是 来 自 模糊 系统 、 人 工 神 经 网 络 、 演 化 计算 这 3 个 分 支 ， 是 这 3 个 分 支 的 有 机 融合 。 在 
大 数据 环境 下 ， 计 算 智能 凭借 自身 的 优势 拥有 巨大 的 应 用 潜力 ， 主 要 体现 在 以 下 三 个 方面 。 


第 一 ， 大 数据 具有 混杂 多 样 和 多 变 的 特点 ， 传 统 的 模型 驱动 方法 无 法 适应 这 种 海量 和 复杂 的 特点 ， 无 法 根据 先 验 知识 获得 精 
确 的 模型 。 而 计算 智能 方法 往往 可 以 不 依赖 于 先 验 知识 ， 无 需 对 问题 进行 精确 建 模 ， 对 于 大 数据 的 动态 性 有 很 好 的 适应 性 。 


第 二 ， 精 度 作 为 大 数据 的 一 个 重要 维度 ， 由 于 数据 收集 、 系 统 状 态 变 化 和 自然 环境 的 随机 性 会 造成 分 析 中 的 不 确定 性 ， 而 计 
算 智 能 恰恰 能 对 不 确定 性 完成 较为 客观 的 分 析 并 增强 分 析 结 果 的 可 解释 性 。 


第 三 ， 大 数据 的 海量 性 和 多 样 性 也 必然 要 求 分 析 时 消耗 大 量 的 时 间 和 空间 ， 而 计算 智能 恰恰 具有 启发 式 特点 ， 具 有 高 度 的 自 
适应 性 、 抽 象 能 力 和 泛 化 能 力 ， 可 以 快速 求解 很 多 NP 难 问题 。 


4.5.2 ”智能 分 析 的 主要 技术 


计算 智能 是 人 工 智能 发 展 的 新 阶段 ， 大 数据 的 智能 分 析 需 要 有 新 的 理论 和 技术 方法 的 突破 ， 必 然 离 不 开 计算 智能 的 发 展 。 下 
面 就 来 简单 介绍 一 下 模糊 系统 、 人 工 神经 网 络 和 和 群体 智能 等 几 个 主要 的 计算 智能 技术 及 其 在 大 数据 中 的 一 般 应 用 。 


(1) 模糊 系统 [1] 


在 实际 的 大 数据 分 析 过 程 中 ， 数 据 的 收集 受到 设备 的 精度 、 系 统 的 随机 性 和 非 线性 和 自然 环境 等 非 爱 控 因 素 的 影响 ， 使 得 数 
据 在 获取 过 程 普遍 存在 模糊 性 。 同 时 ， 很 多 数据 本 身 也 具有 模糊 性 特征 ， 比 如 在 电子 商务 网 站 、 社 交 媒体 网 站 等 网 络 应 用 中 ， 用 
户 发 表 的 评论 、 喜 好 和 倾向 这 些 信息 本 身 就 不 是 很 明确 ， 自 然 语 言 本 身 就 更 是 复杂 和 不 确定 。 因 此 ， 模 糊 系统 恰恰 适用 于 对 此 类 
不 确定 性 的 摘 述 ， 它 可 以 针对 事物 之 间 差 异 划分 不 明确 的 问题 进行 过 渡 性 描述 ， 弥 补 了 二 值 逻 辑 中 的 精确 性 与 现实 世界 不 确定 性 
间 的 鸿沟 。 


以 模糊 聚 类 为 例 和 由， 这 是 一 种 常见 的 模糊 系统 处 理 数据 的 方法 ， 它 是 一 种 非 监督 的 学 习 方法 ， 可 以 用 于 发 现 数据 中 隐 含 的 未 
知 模式 ， 对 于 在 大 数据 中 发 现 相关 性 关系 具有 重要 的 研究 意义 。 模 糊 聚 类 可 以 软化 相关 性 规则 的 边界 条 件 ， 充 分 利用 已 经 发 现 的 
相关 性 规则 作为 分 类 规则 ， 再 对 未 知 数据 进行 预测 来 增强 决策 能 力 和 洞察 力 。 模 糊 聚 类 在 大 数据 分 析 中 也 面临 扩展 性 问题 ， 需 要 
结合 在 线 处 理 、 采 样 分 析 和 分 布 式 并 行 处 理 等 技术 来 适应 大 数据 情境 下 的 分 析 任 务 。 

(2) 群体 智能 

群体 智能 方法 中 的 代表 是 粒子 群 优化 算法 和 蚁 群 优化 算法 ， 此 类 方法 的 主要 特点 为 : @ 可 以 快速 运算 一 些 复杂 问题 的 近似 
解 ， 特 别 是 NP 难 问题 ; @ 对 问题 的 规模 进行 约 简 ， 可 以 解决 那些 由 于 数据 过 量 产生 的 问题 。 粒 子 群 和 蚁 群 优化 算法 都 是 一 种 模 
仿生 物 群体 社会 行为 的 群体 智能 ， 对 问题 的 规模 和 非 线性 具有 鲁 棒 性 ， 是 高 效 的 上 且 应 用 广泛 的 优化 方法 。 在 大 数据 环境 下 ， 由 于 
数据 的 维度 很 高 ， 因 此 会 使 粒子 群 和 蚁 群 优化 算法 的 运算 效率 下 降 ， 因 此 需要 采用 一 些 方法 来 解决 此 类 问题 ， 比 如 分 治 策略 ， 可 
以 采用 某 种 方法 对 相关 变量 完成 分 组 以 提高 运算 效率 I。 群体 智能 也 为 大 数据 的 约 简 提供 了 有 效 的 手段 ， 通 过 优化 过 程 来 寻找 最 
小 的 特征 子 集 。 

在 科学 研究 和 工程 应 用 等 大 数据 分 析 领 域 中 ， 很 多 问题 实际 上 是 与 决策 支持 相关 的 ， 而 这 些 问题 有 赖 于 利用 最 优化 方法 来 求 
解 。 大 数据 的 优化 问题 会 涉及 更 多 的 决策 变量 和 优化 目标 ， 往 往 会 产生 更 为 复杂 多 变 的 多 目标 优化 问题 ， 这 就 需要 研究 优化 过 程 
中 如 何 求解 一 个 折 中 的 最 优 解 集 四 。 


(3) 人 工 神经 网 络 


在 计算 智能 领域 里 ， 人 工 神经 网 络 的 提出 源 于 对 动物 和 人 类 神经 活动 的 研究 成 果 ， 它 是 一 种 模仿 神经 系统 活动 特征 的 数学 模 
型 ， 具 有 较 高 的 非 线性 映射 能 力 、 容 错 性 、 自 适应 能 力 和 分 布 存储 能 力 ， 这 些 优良 的 性 能 为 其 在 大 数据 分 析 处 理 中 发 挥 重要 的 作 
用 提供 了 基础 。 在 传感器 网 络 、 社 交 网 络 、 天 文 观测 等 大 数据 应 用 中 ， 数 据 是 持续 产生 并 动态 变化 的 ， 无 法 像 批量 学 习 中 那样 构 
建 无 偏 训练 集 ， 也 无 法 将 数据 一 次 性 装 入 内 存 ， 此 时 需要 一 种 在 线 学 习 算法 来 动态 地 更 新 目标 函数 ， 而 感知 器 P][6l 作 为 一 种 将 权 
重 与 预测 结果 相关 联 的 学 习 模 型 很 好 地 适应 了 这 种 要 求 。 它 可 以 通过 将 训练 样 例 预测 结果 与 权重 调整 相关 联 的 方式 来 不 断 更 新 和 
学 习 ， 但 早期 的 神经 网 络 算法 都 属于 浅 层 网 络 ， 能 够 高 效 地 解决 很 多 简单 的 、 具 有 多 重 限制 的 问题 ， 但 是 依然 无 法 应 对 更 复杂 的 
真实 世界 的 问题 。 


1974 年 提出 的 反 向 传播 算法 给 出 了 多 层 网 络 的 解决 方案 ， 但 是 由 于 参数 优化 效果 无 法 传递 到 前 层 ， 因 此 容易 产生 局 部 最 优 
和 过 拟 合 的 问题 。2006 年 Hinton 提 出 了 深度 置信 网 络 [/]， 它 是 由 多 个 受 限 玻 耳 效 曼 机 杜 加 而 成 ， 可 以 解决 BP 网 络 无 法 解决 的 问 
题 。 随 后 ， 其 他 很 多 深度 结构 的 神经 网 络 模型 被 提出 ， 大 多 基于 最 基本 的 几 种 基 元 生成 ， 如 玻 耳 效 曼 机 、 自 动 编码 器 、 卷 积 神经 
网 络 等 (919l。 深 度 学 习 通过 逐 层 组 合 低层 特征 来 获取 更 高 层 的 语义 特征 ， 从 而 可 以 直接 从 大 数据 中 学 习 特征 ， 能 够 更 深刻 地 刻画 
出 海量 数据 中 隐藏 的 丰富 信息 ， 其 强大 的 学 习 能 力 在 图 像 识 别 、 语 音 识别 、 自 然 语言 处 理 等 领域 取得 了 令 人 瞩目 的 成 果 。 深 度 学 
习 的 出 现 与 大 数据 近年 来 的 发 展 紧密 相关 ，lmageNet 数 据 集 的 出 现 使 得 图 像 识 别 技术 得 到 了 前 所 未 有 的 发 展 ， 针 对 这 种 数量 庞 
大 、 信 息 更 为 复杂 的 数据 集 ， 深 度 学 习 方 法 的 优势 得 到 了 发 挥 ， 同 时 也 促使 深度 学 习 技术 不 断 改进 和 发 展 以 适应 大 数据 的 需求 ， 
二 者 构成 了 相辅相成 的 关系 。 
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4.6 ”小结 


大 数据 中 蕴 合 的 宝贵 价值 成 为 人 们 存储 和 处 理 大 数据 的 根本 驱动 力 ， 大 数据 时 代 处 理 和 分 析 数 据 也 面临 着 理念 上 的 转变 ， 即 


要 效率 不 要 精确 、 要 相关 不 要 因果 、 要 整体 不 要 局 部 。 大 数据 处 理 的 数据 也 主要 以 静态 的 批 处 理 数据 、 在 线 的 实时 数据 、 综 合 处 
理 的 图 数据 三 个 为 处 理 对 象 。 本 章 正 是 顺应 这 种 理念 上 的 改变 ， 针 对 大 数据 的 数据 分 析 技术 进行 了 简要 的 概括 和 探讨 ， 分 为 实时 
分 析 、 交 互 式 分 析 、 云 在 线 聚 集 分 析 和 智能 分 析 四 个 部 分 对 数据 处 理 进行 了 概括 性 的 总 结 ， 并 对 主要 分 析 技 术 进 行 了 简单 的 总 

结 ， 其 中 无 法 涵盖 所 有 的 分 析 方 法 ， 但 还 是 力求 把 主流 的 分 析 技 术 事 括 进 来 。 流 数据 作为 现今 大 数据 的 潮流 ， 其 特点 是 数据 连续 
不 断 、 来 源 众 多 、 格 式 复杂 、 物 理 顺 序 不 一 、 数 据 的 价值 密度 低 ， 因 此 其 对 应 分 析 处 理工 具 则 需 具 备 高 性 能 、 实 时 、 可 扩展 、 可 
交互 等 特性 ， 这 些 在 以 上 各 个 小 节 中 均 有 所 体现 。 大 数据 的 分 析 与 计算 依然 面临 着 很 多 挑战 ， 主 要 来 自 数据 、 计 算 和 系统 的 复杂 
性 ， 但 计算 技术 的 发 展会 应 对 这 些 挑 战 ， 大 数据 分 析 领 域 大 有 可 为 。 


第 5 草 ”大 数据 隐私 


5.1 引言 


大 数据 正在 改变 着 世界 ， 它 是 IT 业 正 在 发 生 的 深刻 技术 变革 。 大 数据 中 那些 巨大 的 数字 痕迹 已 经 成 为 当前 工业 界 与 学 术 界 的 
研究 热点 。 然 而 ， 大 数据 技术 发 展 无 法 避 开 的 事实 是 隐私 问题 。 实 际 上 ， 隐 私 与 新 技术 变革 之 间 的 冲突 贯穿 着 整个 信息 技术 的 发 
展 史 。19 世 纪 以 报纸 为 代表 的 新 型 媒体 是 最 早 披露 个 人 隐私 的 信息 技术 ， 这 类 隐私 泄露 通常 利用 法 律 进行 保护 ;20 世 纪 60 年 
代 ， 信 息 技术 的 革新 使 得 大 型 计算 机 开始 挑战 人 们 对 隐私 的 传统 观念 ， 针 对 这 类 隐私 威胁 常 采 用 密码 技术 进行 保护 ; 21 世纪 前 
10 年 ， 网 络 技术 和 社交 媒体 的 鞍 勃 发 展 使 得 个 人 隐私 无 处 可 藏 ， 这 类 隐私 泄露 通常 利用 匿名 化 技术 和 模糊 化 技术 进行 保护 。 过 
去 这 些 隐私 与 新 技术 之 间 的 冲突 往往 集中 于 单一 的 小 数据 。 模 糊 化 、 匿 名 化 、 加 密 、 密 码 学 等 是 防止 小 数据 上 隐私 泄露 的 常用 技 
术 。 然 而 ， 这 些 技术 基于 某 些 特定 的 攻击 假设 和 背景 知识 才能 够 生效 。 


大 数据 的 大 规模 性 、 高 速 性 和 多 样 性 等 特征 ， 使 得 它 不 同 于 “小 数据 ”。 上 述 提 到 的 针对 小 数据 的 隐私 保护 方法 在 大 数据 上 
存在 着 很 大 的 局 限 性 : 大 数据 的 多 样 性 带 来 的 多 源 数据 融合 使 得 传统 的 匿名 化 和 模糊 化 技术 几乎 无 法 生效 ;大 数据 的 大 规模 性 与 
高 速 性 带 来 的 实时 性 分 析 使 得 传统 的 加 密 和 密码 学 技术 遇 到 了 极 大 的 瓶 巴 。 此 外 ， 大 规模 性 数据 采集 技术 、 新 型 存储 技术 以 及 高 
级 分 析 技 术 使 得 大 数据 的 隐私 保护 面临 更 大 的 挑战 。 


目前 ， 大 数据 贯穿 七 大 行业 : 教育、 交通、 商业、 电力、 石油 天 然 气 、 卫 生 保健 以 及 金融 业 。 根 据 麦肯锡 公司 分 析 ， 如 果 这 
七 大 行业 之 间 公 开 数 据 ， 将 带 来 3 万 亿美 元 的 经 济 效益 。 然 而 ， 公 开 数 据 带 来 巨大 经 济 利益 的 同时 ， 也 给 个 人 和 团体 的 隐私 带 来 
威胁 。 由 此 可 见 ， 阻 碍 大 数据 公开 的 主要 因素 是 数据 隐私 问题 。 因 此 ， 在 大 数据 时 代 下 ， 保 护 数 据 中 隐私 信息 有 着 独特 的 意义 ， 
传统 的 隐私 保护 理论 和 技术 已 经 无 法 涵盖 大 数据 隐私 的 内 涵 ， 有 必要 对 大 数据 隐私 保护 问题 进行 重新 思考 与 定位 。 


第 5 草 ”大 数据 隐私 


5.1 引言 


大 数据 正在 改变 着 世界 ， 它 是 IT 业 正 在 发 生 的 深刻 技术 变革 。 大 数据 中 那些 巨大 的 数字 痕迹 已 经 成 为 当前 工业 界 与 学 术 界 的 
研究 热点 。 然 而 ， 大 数据 技术 发 展 无 法 避 开 的 事实 是 隐私 问题 。 实 际 上 ， 隐 私 与 新 技术 变革 之 间 的 冲突 贯穿 着 整个 信息 技术 的 发 
展 史 。19 世 纪 以 报纸 为 代表 的 新 型 媒体 是 最 早 披露 个 人 隐私 的 信息 技术 ， 这 类 隐私 泄露 通常 利用 法 律 进行 保护 ;20 世 纪 60 年 
代 ， 信 息 技术 的 革新 使 得 大 型 计算 机 开始 挑战 人 们 对 隐私 的 传统 观念 ， 针 对 这 类 隐私 威胁 常 采 用 密码 技术 进行 保护 ; 21 世纪 前 
10 年 ， 网 络 技术 和 社交 媒体 的 鞍 勃 发 展 使 得 个 人 隐私 无 处 可 藏 ， 这 类 隐私 泄露 通常 利用 匿名 化 技术 和 模糊 化 技术 进行 保护 。 过 
去 这 些 隐私 与 新 技术 之 间 的 冲突 往往 集中 于 单一 的 小 数据 。 模 糊 化 、 匿 名 化 、 加 密 、 密 码 学 等 是 防止 小 数据 上 隐私 泄露 的 常用 技 
术 。 然 而 ， 这 些 技术 基于 某 些 特定 的 攻击 假设 和 背景 知识 才能 够 生效 。 


大 数据 的 大 规模 性 、 高 速 性 和 多 样 性 等 特征 ， 使 得 它 不 同 于 “小 数据 ”。 上 述 提 到 的 针对 小 数据 的 隐私 保护 方法 在 大 数据 上 
存在 着 很 大 的 局 限 性 : 大 数据 的 多 样 性 带 来 的 多 源 数据 融合 使 得 传统 的 匿名 化 和 模糊 化 技术 几乎 无 法 生效 ;大 数据 的 大 规模 性 与 
高 速 性 带 来 的 实时 性 分 析 使 得 传统 的 加 密 和 密码 学 技术 遇 到 了 极 大 的 瓶 巴 。 此 外 ， 大 规模 性 数据 采集 技术 、 新 型 存储 技术 以 及 高 
级 分 析 技 术 使 得 大 数据 的 隐私 保护 面临 更 大 的 挑战 。 


目前 ， 大 数据 贯穿 七 大 行业 : 教育、 交通、 商业、 电力、 石油 天 然 气 、 卫 生 保健 以 及 金融 业 。 根 据 麦肯锡 公司 分 析 ， 如 果 这 
七 大 行业 之 间 公 开 数 据 ， 将 带 来 3 万 亿美 元 的 经 济 效益 。 然 而 ， 公 开 数 据 带 来 巨大 经 济 利益 的 同时 ， 也 给 个 人 和 团体 的 隐私 带 来 
威胁 。 由 此 可 见 ， 阻 碍 大 数据 公开 的 主要 因素 是 数据 隐私 问题 。 因 此 ， 在 大 数据 时 代 下 ， 保 护 数 据 中 隐私 信息 有 着 独特 的 意义 ， 
传统 的 隐私 保护 理论 和 技术 已 经 无 法 涵盖 大 数据 隐私 的 内 涵 ， 有 必要 对 大 数据 隐私 保护 问题 进行 重新 思考 与 定位 。 


5.1.1 大 数据 的 类 型 


大 数据 增长 速度 快 、 数 据 格式 多 样 、 数 据 源 广泛 。 根 据 这 些 特 征 ， 大 数据 的 类 型 可 以 分 为 如 下 两 种 。 


1) 原生 数字 化 数据 (born digital data) : 这 类 数据 自然 产生 出 来 就 适合 计算 机 的 存储 和 处 理 系 统 。 例 如 ， 电 子 邮件 与 文 
本 信息 、GPS 位 置 数据 、 关 联 电话 呼叫 的 元 数据 、 商 业 事务 数据 、 移 动用 于 连接 网 络 的 元 数据 、 网 页 数据 ， 以 及 物 联网 数据 等 。 
原生 数字 化 数据 的 隐私 担忧 来 自 于 该 类 数据 的 过 度 收集 和 数据 融合 。 过 度 收集 往往 与 收集 者 的 初衷 相 违背 。 例 如 ，“ 疏 虫 ”收集 
网 页 数据 初衷 可 能 是 为 了 提升 网 络 的 访问 速度 ， 而 过 度 收集 数据 后 进行 分 析 ， 则 可 以 挖掘 网 络 用户 的 行为 模式 进而 泄露 其 隐私 信 
息 。 又 如 ，“ 最 亮 手电 简 应 用 ”可 以 打开 基于 Android 平 台 手 机 中 所 有 可 用 的 灯 源 ， 然 而 ， 美 国联 邦 贸易 委员 会 却 揭露 了 该 免费 
应 用 所 蕴含 的 阴谋 : 该 应 用 能 够 在 用 户 不 知情 的 情况 下 ， 在 后 台 过 度 收 集 用 户 的 位 置信 息 ， 并 且 卖 给 第 三 方 ， 这 样 用 户 的 位 置 隐 
私 就 被 出 卖 了 。 相 对 于 过 度 收集 ， 基 于 多 个 数字 化 数据 源 的 融合 所 带 来 的 隐私 担忧 更 大 。 单 一 的 数据 源 通常 对 实体 简单 描述 ， 然 
而 ， 通 过 新 型 数学 计算 方法 〈 例 如， 基于 隐 马 尔 可 夫 模 型 的 贝 叶 斯 分 析 方法 ) 与 模式 识别 技术 对 多 个 数据 源 进行 融合 之 后 ， 可 以 
得 到 更 加 丰富 的 个 人 描述 信息 ， 进 而 识别 出 不 同 的 实体 ， 以 至 于 泄露 用 户 的 隐私 信息 。 


2) 原生 模拟 化 数据 (born analog data) : 这 类 数据 是 由 物理 世界 特征 演化 而 来 的 ， 通 过 碰撞 传感器 最 终 成 为 可 以 访问 的 
数字 化 格式 。 例 如 ， 手 机 呼叫 的 音频 与 视频 、 个 人 健康 数据 (例如 心跳 、 呼 吸 与 步 速 等 ) 、 环 境 监 测 视频 、 超 声波 检测 、 医 疗 影 
像 、 化 学 与 生物 样本 、 合 成 孔径 雷达 、 可 佩戴 设备 的 监控 等 模拟 化 数据 。 原 生 模拟 化 数据 的 隐私 需求 源 自 于 产生 该 类 数据 的 物理 
世界 特征 。 例 如 ， 通 过 调整 分 辨 率 、 对 比 度 、 测 光 精 度 三 个 参数 可 以 提高 视频 监控 的 清晰 度 ， 使 人 们 和 能够 清晰 地 识别 几 英 里 之 外 
的 门窗 结构 ， 然 而 ， 门 窗 内 个 人 的 活动 也 不 可 避免 地 会 被 监视 。 手 机 用 户 通 过 GPS 向 基于 位 置 的 服务 方 (Location-Based 
Service，LBS) 发 出 请 求 ， 该 用 户 的 位 置信 息 很 有 可 能 被 非 可 信 的 LBS 泄 露 。 一 旦 模拟 化 数据 转化 为 数字 化 数据 ， 即 可 与 现 有 数 
据 进 行 融合 ， 被 用 于 对 实体 进行 识别 。 


5.1.2 ”隐私 特征 与 类 别 | 


普遍 的 观点 认为 ， 隐 私 具有 三 种 特征 : 隐私 的 主体 是 人 ; 隐私 的 客体 是 个 人 事务 与 个 人 信息 ; 隐私 的 内 容 是 主体 不 愿意 泄露 
的 事实 或 者 行为 。 由 于 大 数据 具有 大 规模 性 、 多 样 性 与 高 速 性 的 独 有 特征 ， 大 数据 隐私 主体 可 能 是 人 或 者 组 织 团体 、 客 体 可 能 是 
人 或 者 团体 的 信息 。 此 外 ， 大 数据 隐私 还 具有 边界 难以 鉴定 的 特征 。 

而 根据 来 源 的 不 同 ， 大 数据 的 隐私 类 别 大 致 分 为 以 下 三 类 : 

1) 监视 (surveillance) 带 来 的 隐私 : 这 里 的 监视 是 指 通过 非法 的 手段 跟踪 、 收 集 个 人 或 者 团体 的 人 敏感 信息 。 例 如 ， 网 站 
利用 Cookie 技 术 跟 踪 用 户 的 搜索 记录 、 利 用 视频 监视 系统 寅 视 他 人 的 行为 等 。 这 类 隐私 常 利用 问 责 系统 或 者 法 律 手段 来 保护 。 


2) 披露 (disclosure) 带 来 的 隐私 : 数据 披露 是 指 故意 或 无 意 中 向 不 可 信 的 第 三 方 透露 或 遗失 数据 。 该 类 隐私 通常 利用 匿 
名 化 、 差 分 隐私 、 加 密 和 访问 控制 等 技术 来 保护 。 


3) 歧视 (discrimination) 带 来 的 隐私 : 这 里 的 歧视 是 指 由 于 大 数据 处 理 技术 的 不 透明 性 ， 普 通 人 无 法 感知 和 应 用 ， 会 在 
有 意 或 无 意 中 产 生 层 视 结 果 ， 进 而 泄露 个 人 或 者 团体 的 隐私 。 该 类 隐私 通常 利用 法 律 法 规 手 段 来 保护 。 





此 外 ， 根 据 对 象 的 不 同 ， 大 数据 隐私 类 别 可 以 分 为 数据 隐私 〈 例 如， 关系 数据 隐私 、 位 置 数据 隐私 等 ) 、 查 询 隐 私 ( 例 
如 ，k 近 邻 查询 等 ) 和 发 布 隐私 等 。 


5.1.3 ”大 数据 的 隐私 风险 


2015 年 《Science》 上 关于 隐私 问题 的 专刊 《The end of privacy》 中 ，Alessandro[1] 等 人 就 隐私 与 人 类 行为 之 间 的 关系 而 
言 ， 指 出 信息 时 代 隐 私 问题 的 三 大 特点 : @ 不 确定 性 ， 个 人 的 隐私 相关 的 行为 表现 和 个 人 隐私 偏好 方面 具有 不 确定 性 ; @ 情 境 相 
关 性 ， 个 人 隐私 偏好 随 周围 环境 变化 ， 





@ 隐 私 偏好 的 可 塑性 ， 存 在 很 多 的 因素 会 激发 或 者 抑制 关于 隐私 的 担忧 ， 反 过 来 这 些 关 于 隐私 的 担忧 又 将 直接 影响 到 人 们 的 
行为 表现 。Yves-Alexandrel<| 等 人 通过 对 110 万 条 信用 卡 交易 数据 进行 统计 ， 发 现 仅 利用 时 空 数据 就 能 够 重新 标识 其 中 90% 的 用 
户 ， 若 加 上 相关 的 金额 数据 ， 其 能 够 重新 标识 用 户 的 概率 将 平均 提升 22%。 关 于 其 中 敏感 信息 的 保护 ， 仅 对 数据 进行 模糊 化 并 不 
能 达到 隐私 保护 的 效果 ， 同 时 ， 性 别 、 收 入 状况 等 是 影响 可 辨识 性 的 重要 因素 。 


大 数据 存在 隐私 风险 ， 因 此 需要 引入 大 数据 的 处 理 框 架 。 大 数据 的 处 理 框架 包括 数据 收集 、 数 据 集成 与 融合 、 数 据 分 析 以 及 
数据 解释 四 个 部 分 。 其 中 ， 数 据 收集 包括 公开 数据 和 私有 数据 的 收集 ; 数据 集成 与 融合 主要 处 理 数据 之 间 的 匈 余 、 不 一 致 、 相 互 
拷贝 天 系 等 问题 ; 数据 分 析 的 目的 是 从 数字 化 与 模拟 化 数据 中 抽取 或 者 学 习 到 有 价值 的 模型 和 规则 ;而 数据 解释 主要 是 通过 可 视 
化 、 数 据 溯源 等 技术 来 展示 大 数据 的 分 析 结果 。 然 而 ， 在 大 数据 的 整个 处 理 框架 和 生命 周期 中 ， 如 下 每 个 步骤 均 人 存在 披露 和 破坏 
数据 隐私 的 风险 : @@ 数 据 收集 步骤 ， 如 果 个 人 数据 被 不 可 信 的 第 三 方 服务 收集 ， 则 个 人 隐私 很 有 可 能 被 泄露 或 者 卖 给 恶意 攻击 
者 。 例 如 ， 不 可 信 的 位 置 服务 恶意 收集 用 户 的 位 置信 息 ， 则 用 户 的 敏感 位 置 可 能 会 被 披露 。@ 数 据 集成 和 融合 步骤 中 ， 存 在 着 不 
可 信 外 包 服 务 攻 击 、 无 加 密 索 引 、 记 录 连 接 攻击 等 。@ 数 据 分析 过 程 中 存在 频繁 模式 支持 度 攻 击 、 分 类 与 聚 类 攻击 、 特 征 攻击 
等 。@ 数 据 解 释 过 程 中 可 能 存在 前 景 知识 攻击 、 通 过 数据 溯源 图 挖掘 元 数据 之 间 的 依赖 关系 等 。 以 下 着 重 介绍 数据 收集 、 集 成 和 
融合 以 及 数据 分 析 这 三 个 步骤 中 的 隐私 风险 。 


1) 数据 肆意 收集 带 来 的 风险 : 在 大 数据 环境 中 ， 医 疗 就 医 记录 、 购 物 及 服务 记录 、 网 站 搜索 记录 、 手 机 通话 记录 和 手机 位 
置 轨迹 记录 等 都 是 获取 用 户 信息 的 渠道 。 而 这 些 用 户 个 人 信息 被 收集 时 ， 用 户 通 常 是 不 知情 的 ,或 者 很 少 有 机 会 去 思考 或 认同 自 


己 的 数据 被 用 来 干什么 ， 是 谁 收集 了 自己 的 数据 ， 是 谁 二 次 使 用 了 自己 的 数据 。 用 户 也 不 会 知道 如 果 自 己 的 数据 出 现 误 用 ， 将 由 
谁 负责 ; 自己 的 数据 是 否 在 网 上 被 恶意 传播 ; 自己 的 数据 什么 时 候 被 销毁 。2011 年 4 月 ，《 纽 约 时 报 》 报 道 ，Apple 公 司 通过 
iPhone 手机 上 的 iOs4 系 统 无 线 跟踪 并 收集 用 户 的 地 理 位 置信 息 ， 而 位 置信 息 通常 歼 含 着 用 户 的 敏感 信息 。 例 如 ， 距 离 Alice 最 近 
的 皮肤 病 医院 。 地 理 位 置信 息 的 跟踪 与 收集 是 在 iPhone 的 后 台 运 行 ， 用 户 根本 无 法 察觉 。 而 位 置信 息 一 旦 被 泄露 ， 通 过 位 置 的 
序列 关系 可 以 推断 出 用 户 的 疾病 情况 、 家 庭 住址 、 轨 迹 模式 等 私密 信息 。 此 外 ，Google 公 司 也 曾 因 为 通过 Cookie 跟 踪 用 户 的 搜 
索 记录 ， 进 而 披露 用 户 的 网 上 行为 模式 、 政 治 倾向 以 及 消费 习惯 等 而 被 美国 联邦 贸易 委员 会 判罚 2250 万 美元 





因此 ， 通 过 上 述 的 实例 可 知 ， 在 用 户 无 “知情 同意 ” 权 的 情况 下 ， 隐 私 风险 巨大 。 这 类 风险 主要 是 由 于 缺乏 规范 与 法 律 法 规 
监管 ， 在 收集 数据 时 ， 为 了 不 危害 用 户 的 隐私 ， 通 常 依靠 收集 者 的 自律 和 自沉 遵守 一 些 规范 。 在 商业 化 的 应 用 场景 中 ， 用 户 有 权 
利 选 择 自己 数据 的 用 途 ， 在 收集 个 人 数据 之 前 必须 得 到 用 户 的 许可 ; 用 户 有 权 知 道 自己 的 数据 是 否 被 共享 、 误 用 、 恶 意 传播 或 销 
毁 等 。 这 些 权利 的 实施 ， 需 要 政府 出 台 或 者 加 强 相 天 的 法 律 法 规 建 设 ， 对 用 户 的 个 人 隐私 的 收集 起 到 约束 与 监管 作用 。 


2) 集成 和 融合 带 来 的 风险 : 集成 和 融合 通常 采用 链接 操作 使 多 个 异 构 数 据 源 汇聚 在 一 起 ， 并 且 识 别 出 相 应 的 实体 。 小 数据 
源 通 常 能 够 反映 出 用 户 的 某 个 活动 ， 比 如 ， 接 受 的 医疗 、 购 买 的 商品 、 搜 索 的 网 站 、 手 机 留 下 的 位 置 特征 、 社 交 网 络 的 互动 信息 
及 政治 活动 等 。 融 合 不 同 的 小 数据 可 以 更 好 地 服务 于 数据 分 析 与 管理 。 零 售 商 通 过 集成 线 上 、 线 下 以 及 销售 目录 数据 库 ， 可 以 获 

更 多 消费 者 的 个 人 描述 信息 、 预 测 消费 者 的 购物 偏好 等 ; GPS 服务 商 通过 集成 路 网 不 同 路 段 上 的 传感器 数据 ， 可 以 得 到 更 好 的 
道路 规划 与 交通 路 线 。 然 而 ， 多 个 数据 源 的 集成 与 融合 几乎 能 够 推理 出 个 人 所 有 的 敏感 信息 ， 无 形 中 给 个 人 隐私 的 保护 带 来 严峻 
挑战 。 匿 名 和 模糊 化 是 集成 中 常用 的 隐私 保护 技术 ， 该 技术 通常 比较 适用 于 小 型 且 单 一 的 数据 源 ， 保 护 的 效果 比较 理想 。 然 而 ， 
针对 于 复杂 的 大 数据 ， 即 使 利用 匿名 或 者 模糊 化 技术 将 个 人 敏感 信息 保护 起 来 ， 但 是 当 攻击 者 拥有 其 他 公共 的 或 者 隐私 的 数据 源 
时 ， 就 可 以 利用 链接 攻击 对 匿名 之 后 的 数据 源 进 行 攻 击 ， 极 有 可 能 重新 识别 出 匿名 后 的 个 人 敏感 信息 ， 从 而 造成 个 人 隐私 泄露 。 
例如 ， 美 国 在 线 公 司 (AOL) 虽然 删除 了 搜索 用 户 的 显 性 标识 ， 用 随机 数 代 蔡 名 字 和 ID 号 ， 然 而 ，《 纽 约 时 报 》 记 者 还 是 通过 
背景 知识 识别 出 4417749 号 是 佐治 亚 州 的 一 名 喜 妇 ; Netflix 公 司 所 发 布 的 Netflix 大 奖 赛 匿 名 数据 ， 被 攻击 者 通过 集成 方法 甄别 
出 一 些 用 户 的 身份 导致 用 户 的 隐私 泄露 ， 这 一 结果 直接 导致 第 二 次 Netflix 大 奖 赛 的 取消 。 


可 以 用 图 5-1 中 的 例子 说 明 数 据 集 成 与 融合 带 来 的 隐私 泄露 。 数 据 源 1 是 满足 k- 匿 名 的 医疗 发 布 数据 ， 在 属性 ZIP、Birth 
Date 与 Sex 上 作 了 匿名 化 处 理 ; 数据 源 2 是 公开 的 选民 注册 数据 ， 同 样 具有 ZIP、Birth Date 与 Sex 属 性 。 攻 击 者 通过 集成 数据 源 2 
与 数据 源 1， 可 以 推理 出 数据 源 1 中 用 户 的 身份 ， 并 披露 其 隐私 信息 ， 比 如 个 人 的 政治 倾向 与 医疗 记录 等 。 





7 ~ 
数据 源 1: 满足 大 匿 名 的 医疗 发 布 数据 
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数据 源 2: 选民 公开 的 注册 数据 


图 5-1 个 人 身份 重新 疆 别 例子 


3) 数据 分 析 带 来 的 风险 : 目前 ， 基 于 大 数据 的 计算 框架 ， 其 计算 分 析 能 力 能 够 达到 “大 海 捞 针 ”。 数 据 科学 家 通过 分 析 ， 


可 以 挖掘 出 大 数据 中 的 异常 点 、 频 繁 模式 、 分 类 模式 、 数 据 之 间 的 相关 性 以 及 用 户 行为 规律 等 信息 。 然 而 ， 大 数据 分 析 的 最 大 障 
碍 是 数据 隐私 问题 。 在 某 种 程度 上 ， 数 据 收集 不 可 怕 ， 可 怕 的 是 用 户 的 行为 可 以 通过 大 数据 分 析 被 预测 出 来 。 例 如 ，Facebook 
就 曾 因 跟 踪 用 户 的 数据 ， 并 通过 分 析 这 些 数据 来 评估 Facebook 的 广告 效果 ， 而 引发 了 隐私 维权 机 构 的 质疑 ; Google 的 
Analytics 是 最 受 欢迎 的 分 析 工 具 ， 企 业 和 政府 通常 利用 该 工具 分 析 网 站 流量 。 然 而 ， 在 用 户 使 用 该 工具 时 并 不 能 保证 自己 的 隐 
私 数据 不 被 泄露 。Analytics 不 仅 知道 用 户 本 身 网 站 所 有 访客 信息 ， 也 可 以 通过 关联 分 析 获 悉 其 他 网 站 中 的 访客 信息 ; 大 数据 下 
的 个 性 化 推荐 系统 使 电子 商务 网 站 可 根据 用 户 的 兴趣 特点 和 购买 行为 ， 向 用 户 推荐 感 兴趣 的 信息 和 商品 。 然 而 ， 用 户 的 商品 购买 
言 息 以 及 行为 模式 很 有 可 能 被 商务 网 站 挖掘 出 来 ， 进 而 导致 隐私 信息 泄露 。 








大 数据 分 析 带 来 的 隐私 问题 主要 源 自 于 三 个 方面 : 新 型 计算 框架 、 高 性 能 算法 、 更 加 复杂 的 分 析 模 型 。 在 大 数据 环境 下 ， 以 
Hadoop+MapReduce、Sstorm、Dremel， 以 及 R+ Hadoop 为 代表 的 强大 计算 框架 ， 能 够 以 批 处 理 或 者 流 式 处 理 的 方式 并 行 处 
理 大 规模 数据 ;以 前 传统 的 数据 挖掘 、 机 器 学 习 与 OLAP 算 法 不 再 适应 这 些 新 型 计算 框架 ， 需 要 重新 改写 并 提高 其 分 析 性 能 ,使 
高 性 能 算法 不 但 能 够 深层 分 析 大 数据 中 那些 细小 的 、 彼 此 之 间 毫 无 关联 的 数据 碎片 ， 同 时 也 为 恶意 分 析 者 提供 了 确凿 的 攻击 背景 
知识 ， 进 而 通过 分 析 泄 露 大 数据 中 的 隐私 信息 ; 针对 大 数据 隐私 问题 ， 先 前 单一 的 分 类 、 回 归 分 析 等 模型 无 法 应 对 大 数据 的 大 规 
模 性 和 多 样 性 ， 进 而 出 现 了 更 为 复杂 高 效 的 分 析 模 型 ， 比 如 ， 基 于 随机 优化 的 分 类 方法 SDCAB] 与 回归 分 析 方法 SAG 欠 等 。 


大 数据 分 析 带 来 的 直接 风险 是 泄露 数据 的 隐私 信息 ， 间 接 风险 是 导致 隐私 保护 方法 失效 、 分 析 结 果 的 不 可 擦 除 性 等 。 因 此 ， 
需要 更 具有 和 鲁 棒 性 、 可 扩展 性 以 及 隐私 性 的 数据 挖掘 和 机 器 学 习 方 法 的 出 现 。 


中 Acquisti A, Brandimatte L, Loewenstein G. Privacy and Human Behavior in the Age of 
Information [J] . Science, 2015, 347 (6221) : 509-514, 

[2] De Montjoye Y, Radaelli L, Singh V. Unique in the Shopping Mall: On the Reidenti-fiability of Credit Card Metadata 
Science, 2015, 347 (6221) : 536-539. 

[3] Hsieh C, Chang K, Lin C, et al. A Dual Coordinate Descent Method for Large-scale Lineat SVM [C] . Proceedings of the25th 
International Conference on Machine Learning (ICML) . New York: ACM, 2008: 408-415. 

[4 Schmidt M, Roux N L, Bach F. Convergence Rates of Inexact Proximal-Gradient Methods for Convex 
Optimization [C] . Proceedings of the25th Annual Conf on Neutal Information Processing Systems (NIPS) . Springer Betlin 
Heidelberg, 2011: 1458-1466. 


5.2 ”隐私 保护 技术 


由 于 大 数据 隐私 本 身 的 特殊 意义 ， 传 统 的 隐私 保护 理论 和 技术 已 经 无 法 涵盖 其 内 涵 。 目 前 没有 一 个 万 能 的 方法 能 够 解决 所 有 
的 隐私 问题 。 每 一 种 方法 均 有 自己 的 优 缺 点 。 本 节 针 对 大 数据 管理 过 程 中 面临 的 隐私 风险 和 挑战 ， 展 开 大 数据 隐私 管理 关键 技术 
的 分 析 。 


5.2.1 ”匿名 化 技术 
匿名 化 是 指 隐藏 或 者 模糊 数据 以 及 数据 源 。 该 技术 一 般 采用 抑制 、 泛 化 、 剖 析 、 切 片 、 分 离 等 操作 匿名 数据 。k- 匿 名 [1] 是 该 


技术 的 早期 代表 方法 ， 该 方法 在 发 布 天 系数 据 时 要 求 每 一 个 泛 化 后 的 等 价 类 (equivalence class) 至 少 包 合 k 条 相互 不 能 区 分 的 
数据 ， 即 要 求 一 条 数据 表示 的 个 人 信息 至 少 与 其 他 k-1 条 数据 不 能 区 分 。 然 而 ,Kk- 匿 名 的 缺陷 是 未 对 等 价 类 中 的 敏感 属性 进行 约 


束 进而 导致 该 技术 失效 ,例如 ， 某 等 价 类 中 任意 一 个 敏感 属性 取 值 相同 ， 则 攻击 者 可 以 推理 出 该 敏感 值 。 与 k- 匿 名 不 同 ,|- 
diversity[* 方 法 在 匿名 关系 数据 时 确保 每 个 等 价 类 至 少 包 含 | 个 不 同 的 敏感 属性 值 。 虽 然 |-diversity 保 证 了 敏感 属性 的 多 样 性 ， 却 
忽视 了 敏感 属性 的 全 局 分 布 ， 进 而 攻击 者 可 能 以 很 高 的 概率 确认 出 敏感 值 。 为 弥补 |-diversity 方 法 的 不 足 ，t-closenessB] 方 法 要 
求 所 有 等 价 类 中 敏感 属性 值 的 分 布 与 该 属性 的 全 局 分 布 保持 一 致 。 此 外 ，m-invariance 加 与 HUD-compositionD] 填 补 了 k- 匿 名 、 
-diversity 与 t-closeness 方 法 仅 适 用 于 静态 关系 数据 的 不 足 ， 确 保 数 据 在 动态 或 者 增 量 发 布 时 隐私 不 被 泄露 。 


上 述 研究 是 针对 关系 数据 的 ， 而 另 一 部 分 匿名 化 研究 则 着 眼 于 社交 网 络 数据 的 发 布 和 查询 。 社 区 网 络 中 包含 大 量 的 敏感 信 
息 ， 如 链接 关系 、 节 点 属性 、 节 点 标记 、 图 结构 特征 等 ， 攻 击 者 可 以 借助 主动 攻击 与 被 动 攻击 模型 推理 和 披露 相关 的 敏感 信息 。 
社交 网 络 数据 隐私 保护 技术 分 为 两 类 : 基于 聚 类 泛 化 法 与 图 结构 修改 法 。 基 于 聚 类 泛 化 法 是 指 通过 聚 类 的 方法 把 图 中 的 节点 和 边 
分 成 超级 节点 和 超级 边 ， 节 点 和 边 的 敏感 信息 可 以 隐藏 在 它们 的 超 类 中 。 常 用 方法 包括 节点 聚 类 法 、 边 聚 类 法 和 节点 边 聚 类 法 ; 
图 结构 修改 法 是 指 通 过 节点 和 边 的 插入 删除 操作 改变 图 的 结构 ， 保 护 边 和 节点 的 身份 识别 以 及 重新 识别 。 这 类 方法 主要 采用 类 似 
于 kK- 匿名 的 思路 ， 防 止 攻击 者 借助 网 络 结构 作为 背景 知识 进行 攻击 ， 如 度 攻击 、 子 图 攻击 、|- 近 邻 攻 击 等 。 


相对 于 关系 数据 与 社交 网 络 而 言 ， 大 数据 的 匿名 化 更 为 复杂 。 大 数据 中 多 源 数据 之 间 的 集成 融合 以 及 相关 性 分 析 使 得 上 述 那 
些 针对 小 数据 的 被 动 式 保护 方法 失效 。 与 主动 式 隐私 管理 框架 相 比 ， 传 统 匿 名 技术 人 存在 的 缺陷 是 被 动 式 地 防止 隐私 泄露 ， 结 合 
一 数据 集 上 的 攻击 假设 来 制定 相应 的 匿名 化 策略 。 然 而 ， 大 数据 的 大 规模 性 、 多 样 性 使 得 传统 匿名 化 技术 顾此失彼 。 


[1] Sweeney L. K-anonymity: A Model for Protecting Privacy [J] . International Journal of Uncertainty, Fuzziness and Knowledge-Based 
Systems, 2002, 10 (5) : 557-570. 

[2] Machanavajjhala A, Kifer D, Gehrke J, et al. L-diversity: Privacy Beyond K-anonymity [J] . ACM Transactions on Knowledge 
Discovery from Data, 2007, 1 (1) : 1-47. 

IB] Li N, Li T, Venkatasubramanian S. Closeness: A New Privacy Measure for Data Publishing [J . IEEE Transactions on Knowledge 
and Data Engineering, 2010, 22 (7) : 943-956. 

[4] Xiao X, Tao Y. M-invariance: ‘Towards Privacy Presetving Republication of Dynamic Datasets [C] . Proceedings of the27th ACM Int 
Conf on Management of Data (SIGMOD) . New York: ACM, 2007: 689-700. 

[BB] BuY, FuA WC, WongRCW, etal. Privacy Presetving Setial Data Publishing by Role Composition [C] . Proceedings of the 


VLDB Endowment, 2008, 1 (1) : 845-856. 


5.2.2 ”数据 加 密 技术 


大 数据 隐私 管理 通常 以 云 平 台 为 依托 ， 在 云 平 台 下 实现 隐私 管理 的 首要 问题 是 存储 、 加 密 数 据 上 的 计算 以 及 通信 的 安全 性 ， 
数据 加 密 技 术 正好 满足 这 一 需求 。 云 平台 下 具体 应 用 通常 依赖 于 数据 的 存储 、 索 引 与 检索 以 及 云 平台 提供 的 可 信 度 。 同 态 加 
密 员 、 功 能 加 密 向 、 安 全 多 方 计算 B] 等 是 常用 的 加 密 方法 。 密 文 检 索 处 理 技术 分 为 对 称 加 密 和 公 钥 加 密 方 法 。 此 外 ， 功 能 加 密 允 
许 在 处 理 密 钥 时 学 习 密 文 所 隐 含 的 信息 。 


安全 多 方 计 算是 另外 一 类 数据 加 密 技 术 ， 其 核心 操作 是 在 分 布 式 环境 下 基于 多 方 参与 者 提供 的 数据 计算 出 相应 的 函数 值 ， 并 
确保 除了 参与 者 的 输入 以 及 输出 信息 外 ， 不 会 额外 暴露 参与 方 的 任何 信息 。 该 技术 常用 于 分 布 式 环境 下 隐私 保护 的 数据 挖掘 领 
域 ， 并 逐渐 扩展 到 无 向 积 与 添加 矢量 等 领域 。 


尽管 上 述 研究 为 大 数据 隐私 管理 提供 了 一 定 的 思路 ， 但 是 该 技术 的 缺陷 比较 明显 。 类 似 于 匿名 化 技术 ， 该 类 技术 也 是 针对 某 
类 数据 的 隐私 泄露 而 采取 被 动 式 的 保护 。 在 大 数据 环境 下 ， 数 据 的 大 规模 性 、 多 样 性 等 特点 会 使 得 该 类 技术 陷入 循环 怪圈 ， 面 对 
新 型 应 用 的 隐私 泄露 ， 必 须 采 用 新 的 加 密 方法 才能 保护 。 


[1] Hu H, Xu J, Ren C, et al. Processing Private Queties over Untrusted Data Cloud thtough Privacy 
Homomorphism [C] . Proceedings of the27th IEEE Int Conf on Data Engineering (ICDE) . NJ: IEEE, 2011: 639-644. 

[2] Goldreich O. Foundations of Cryptography: volume2 [M]| . Cambridge: Cambridge Univetsity Press, 2004. 

[3] Vaidya J], Clifton C. Privacy Preserving Association Rule Mining in Vettically Pattitioned Data LC] . Proceedings of the Eighth ACM 


SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD) . New York: ACM, 2002: 639-644. 


5.2.3 ”差分 隐私 技术 


无 论 是 匿名 技术 还 是 加 密 技术 ， 二 者 都 是 针对 当前 的 外 部 攻击 来 设计 启发 式 保护 方法 ， 面 对 新 的 攻击 需要 重新 制定 保护 方 
法 。 在 大 数据 环境 中 ， 这 两 类 方法 均 由 于 缺乏 很 强 的 数学 基础 来 定义 数据 隐私 性 与 损失 性 而 不 具有 普遍 应 用 性 。 差 分 隐私 [的 出 
现 弥补 了 这 一 空白 ， 该 模型 是 一 种 由 数学 理论 支撑 的 、 新 型 的 、 强 健 的 隐私 保护 技术 。 根 据 差分 隐私 形式 化 定义 可 知 ， 该 方法 由 
隐私 参数 控制 着 隐私 保护 程度 与 隐私 损失 的 大 小 ， 可 以 确保 在 某 一 数据 集中 插入 或 者 删除 一 条 记录 的 操作 不 会 影响 任何 计算 的 输 
出 结果 。 另 外 ， 该 方法 不 关心 攻击 者 所 具有 的 背景 知识 ， 即 使 攻击 者 已 经 掌握 除 某 一 条 记录 之 外 的 所 有 记录 的 信息 ， 该 记录 的 隐 
私 也 无 法 被 泄露 ， 这 一 特点 使 得 差分 隐私 技术 具有 很 好 的 扩展 性 。 要 实现 差分 隐私 保护 需要 借助 于 噪声 机 制 和 查询 敏感 性 。 常 用 
的 噪声 机 制 包括 拉 普 拉 斯 噪声 与 指数 噪声 ， 噪 声 的 大 小 与 函数 “f (A/s) ”相关 ， 其中，““f () ”表示 拉 普 拉 斯 分 布 或 者 指数 
分 布 的 分 布 遂 数 ，“A” 表 示 查 询 敏 感性 。 目 前 ， 差 分 隐私 技术 的 研究 主要 集中 在 数据 发 布 、 数 据 挖 握 与 机 器 学 习 和 查询 处 理 等 
方面 。 数 据 发 布 典型 的 工作 包括 一 维和 多 维 直方 图 发 布 方法 、 流 数据 发 布 、 图 数据 发 布 以 及 空间 数据 发 布 等 。 数 据 挖掘 和 机 器 学 
习 近 期 研究 包括 频繁 模式 挖掘 、 回 归 分 析 以 及 分 类 等 。 查 询 处 理工 作 包括 范围 计数 查询 、 基 于 和 矩阵 机 制 的 批量 查询 以 及 基于 低 秩 
机 制 的 批量 查询 等 。 





从 上 述 的 研究 可 以 看 出 ， 差 分 隐私 已 经 成 为 目前 隐私 保护 技术 的 研究 热点 。 学 术 界 认为 差分 隐私 与 大 数据 具有 天 然 的 匹配 
性 ， 其 原因 是 大 数据 的 大 规模 性 和 多 样 性 使 得 在 数据 集中 添加 或 者 删除 某 个 数据 点 对 整体 数据 的 影响 非常 小 ， 这 一 特质 与 差分 隐 
私 定义 的 内 涵 相 吻合 。 


[1] Dwork C. Differential Privacy [Cj] . Proceedings of the331d Int Colloquium on Automata, Languages and 


Programming (ICALP) . Springer Betlin Heidelberg, 2006: 1-12. 


5.24 ”隐私 信息 检索 技术 


隐私 信息 检索 (private information retrieval) [技术 通常 被 用 于 外 包 数 据 时 的 查询 安全 ， 用 户 可 以 在 不 可 信 的 服务 平台 
上 查询 任意 数据 而 不 泄露 被 查询 数据 的 敏感 信息 。 被 查询 的 数据 可 以 是 公开 的 、 匿 名 的 ， 但 是 服务 平台 却 无 法 甄别 这 些 数据 的 具 
体内 容 。 尽 管 同 态 加 密 技术 也 可 以 实现 对 查询 的 控制 ， 然 而 ， 由 于 查询 的 复杂 性 与 计算 开销 使 得 这 类 技术 不 具有 实用 性 。 实 现 隐 
私 检索 的 技术 包括 两 类 : 其 一 是 基于 信息 论 的 检索 方法 ， 该 方法 通常 是 把 所 有 的 数据 传递 给 客户 端 并 允许 其 在 本 地 解码 ， 然 而 由 
于 传输 代价 问题 ， 这 种 技术 不 太 适 合 大 数据 ; 其 二 是 基于 硬件 的 可 计算 检索 方法 ， 该 方法 是 目前 比较 常用 的 ， 通 常用 于 DNA 序 
列 匹 配 、 基 于 内 容 的 图 像 检 索 以 及 位 置 隐私 查询 等 领域 。 基 于 可 计算 框架 分 别 依据 二 次 剩余 假设 问题 的 难 解 性 与 伪 随 机 函数 的 可 
实现 性 设计 了 不 同 的 隐私 信息 检索 方法 外 ;单一 服务 方 可 计算 检索 协议 BB 刹 用 Paillier 加 密 系统 实现 了 低 通 信 开 销 的 字符 传输 。 
然而 ， 该 方法 却 存在 效率 低 以 及 信息 泄露 的 危险 ; 人 们 借助 于 ORAM (Oblivious RAM) 共计 算 提 出 了 一 种 更 加 有 效 的 检索 协 
议 P1,， 该 协议 不 但 能 够 降低 通信 和 计算 代价 ， 更 能 够 防止 信息 泄露 。 尽 管 隐私 信息 检索 技术 促进 了 安全 软 硬 件 的 发 展 ， 但 在 大 数 


据 环 境 中 ， 这 项 技术 的 应 用 会 更 加 困难 和 复杂 。 
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Retrieval [C] . Proceedings of the35th Annual IEEE Symposium on Foundations of Computer Science (FOCS) . NJ: IEEE, 1997: 
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5.3 ”隐私 保护 技术 的 应 用 


本 节 主 要 介绍 隐私 保护 技术 在 不 用 领域 中 的 应 用 ， 主 要 包括 位 置 大 数据 的 隐私 保护 、 数 据 发 布 和 分 析 中 的 隐私 保护 、 互 联网 
搜索 中 的 隐私 保护 和 云 计 算 中 的 隐私 保护 。 


5.3.1 “位置 大 数据 中 的 隐私 保护 


大 数据 时 代 ， 移 动 通信 和 传 感 设 备 等 位 置 感知 技术 的 发 展 将 人 和 事物 的 地 理 位 置 数据 化 。 移 动 对 象 中 的 传 感 世 片 以 直接 或 间 
接 的 方式 收集 移动 对 象 的 位 置 数据 ， 传 感 器 自动 采集 位 置信 息 的 速度 和 规模 远 远 超过 现 有 系统 的 处 理 能 力 。 未 来 ， 移 动 传 感 设备 
的 进步 和 通信 技术 的 提升 会 更 频繁 地 产生 位 置信 息 。 在 大 数据 时 代 ， 这 样 的 产生 速度 和 数据 规模 为 人 们 的 生活 、 企 业 的 运作 以 及 
科学 研究 带 来 巨大 的 变革 。 我 们 称 这 类 由 于 包含 位 置信 息 且 具有 规模 大 、 产 生 速 度 快 、 蕴 合 价值 高 等 满足 被 普遍 认可 的 大 数据 的 
寺 点 的 数据 为 位 置 大 数据 。 位 置 大 数据 在 带 给 人 们 巨大 收益 的 同时 ， 也 带 来 了 泄露 个 人 信息 的 危害 。 这 是 因为 位 置 大 数据 既 直 接 
包含 用 户 的 隐私 信息 ， 又 隐 合 了 用 户 的 个 性 习惯 、 健 康 状 况 、 社 会 地 位 等 其 他 敏感 信息 。 位 置 大 数据 的 不 当 使 用 ， 会 给 用 户 各 方 
面 的 隐私 带 来 严重 威胁 。 





(1) 位 置 大 数据 的 隐私 威胁 


类 似 一 般 的 隐私 定义 ， 我 们 认为 ， 位 置 大 数据 的 隐私 是 移动 对 象 对 自己 位 置 数据 的 控制 。 大 数据 时 代 ， 位 置 数据 的 来 源 极为 
广泛 ， 位 置 大 数据 中 包含 的 移动 对 象 不 同时 刻 的 位 置信 息 与 背景 知识 结合 ， 会 泄露 用 户 的 健康 状况 、 行 为 习惯 、 社 会 地 位 等 敏感 
言 息 。 例 如 : 观察 到 用 户 出 现在 医院 附近 ， 可 以 推测 出 用 户 大 致 的 健康 状况 ; 考虑 用 户 轨迹 开始 和 结束 的 地 点 ， 可 以 推测 出 用 户 
的 家 庭 住址 等 信息 。 此 外 ， 加 速度 传感器 等 收集 到 的 只 包含 部 分 位 置 的 信息 ， 也 可 以 让 攻击 者 有 效 推测 用 户 的 行为 模式 。 


攻击 者 利用 类 似 上 述 各 种 数据 推测 用 户 某 时 刻 的 隐私 ， 在 传统 的 位 置 隐私 保护 工作 中 通常 被 称 为 观察 攻击 或 者 关联 攻击 ,但 
这 些 攻击 模型 不 能 概括 大 数据 时 代用 户 的 位 置 隐私 面 对 全 方面 推测 的 威胁 。 由 于 “知情 与 同意 ”、 匿 名 等 经 典 的 隐私 保护 策略 在 
大 数据 时 代 均 失效 ， 如 何 防止 攻击 者 利用 收集 到 的 各 方面 数据 推测 用 户 的 隐私 信息 ， 成 为 大 数据 时 代 亚 待 解决 的 位 置 大 数据 的 隐 
私 保护 问题 。 


位 置 大 数据 隐私 保护 技术 研究 的 早期 ， 并 没有 专门 针对 位 置 大 数据 的 保护 手段 ， 研 究 者 仪 简单 通过 用 户 对 数据 进行 分 类 ， 并 
提供 访问 控制 列表 或 者 数据 使 用 列表 等 隐私 控制 策略 ， 避 免 不 可 信 对 象 对 用 户 敏感 位 置 数据 的 获得 以 及 数据 的 不 正当 应 用 。 之 
后 ， 针 对 位 置 大 数据 隐私 保护 的 研究 集中 在 如 何 避 免 向 攻击 者 发 布 移动 对 象 某 一 时 刻 的 精确 位 置 ， 同 时 获得 基于 位 置 大 数据 的 服 
务 ， 这 类 技术 的 典型 方法 包括 位 置 K- 匿 名 等 基于 单 点 位 置 的 启发 式 隐私 度量 的 方法 [1]。 随 着 位 置 大 数据 隐私 保护 技术 的 发 展 ， 人 
们 开始 注意 到 轨迹 信息 包含 用 户 的 移动 位 置 在 时 间 上 的 相关 性 向 ， 于 是 ， 保 护 用 户 的 轨迹 信息 的 方法 受到 重视 。 由 于 位 置 之 间 在 
时 间 上 的 相关 性 难以 把 握 ， 一 些 基于 轨迹 的 启发 式 的 隐私 度量 方法 (比如 将 位 置 数据 随机 化 的 方法 、 对 空间 数据 的 模糊 化 方法 和 
对 时 间 数 据 的 模糊 化 方法 ) 被 提出 。 


但 在 大 数据 时 代 ， 提 供 可 以 量化 的 位 置 大 数据 的 隐私 保护 效果 是 十 分 重要 的 ， 因 此 ， 基 于 概率 推测 的 位 置 大 数据 隐私 保护 方 
法 从 信息 论 的 角度 给 出 位 置 隐私 完整 的 度量 方式 ， 量 化 每 个 位 置 数据 暴露 的 用 户 隐私 。 同 时 ， 基 于 隐私 信息 检索 的 位 置 大 数据 隐 
私 保护 技术 提供 了 完美 的 隐私 保护 。 


(2) 位 置 大 数据 隐私 保护 技术 


不 同 的 位 置 大 数据 隐私 保护 技术 出 于 不 同 的 隐私 保护 需求 以 及 实现 的 原理 不 同 ， 在 实际 应 用 中 各 有 优 缺 点 。 这 里 将 位 置 大 数 
据 隐私 保护 技术 分 为 3 类 。 


基于 局 发 式 隐 私 度量 的 位 置 大 数据 隐私 保护 技术 : 对 于 任意 时 刻 t 的 位 置信 息 发 布 后 ， 暴 露 的 用 户 敏感 信息 与 攻击 者 收集 到 
的 时 刻 t 之 前 和 之 后 的 位 置 数据 都 有 关 ， 针 对 这 些 完 整 的 数据 攻击 和 保护 用 户 的 位 置 隐私 代价 很 大 。 对 于 一 些 隐 私 保护 需求 不 严 
格 的 用 户 ， 基 于 启发 式 隐私 度量 的 位 置 大 数据 隐私 保护 技术 假设 用 户 在 t 时 刻 的 位 置信 息 只 与 当前 时 刻 攻 击 者 收集 到 的 数据 有 
关 。 相 应 的 方法 包括 经 典 的 基于 单 点 或 轨迹 的 位 置 隐私 保护 技术 ， 直 接应 用 这 些 方 法 会 遭受 针对 数据 特征 的 攻击 。 比 如 : 经 过 空 
间 匿 名 框 处 理 以 后 的 数据 ， 在 考虑 移动 物体 的 移动 速度 时 ， 某 时 刻 发 布 的 匿名 框 可 能 由 于 移动 物体 上 一 时 刻 的 匿名 框 中 无 法 到 达 
下 一 时 刻 ， 从 而 导致 匿名 失败 。 为 此 ， 这 类 方法 针对 一 般 常 见 的 攻击 手段 ， 如 考虑 匿名 框 的 面积 等 技术 ， 对 发 布 的 位 置 数据 进行 
处 理 ， 以 降低 攻击 者 推测 出 用 户 敏感 位 置 的 可 能 性 。 


基于 概率 推测 的 位 置 大 数据 隐私 保护 技术 : 这 类 方法 严格 量化 攻击 模型 的 效果 ， 并 进而 限制 任意 时 刻 t 发 布 的 位 置 数据 包含 
的 信息 量 。 基 于 概率 推测 的 隐私 保护 技术 假设 攻击 者 具有 全 部 背景 知识 ， 并 由 此 对 每 个 发 布 的 位 置 数据 计算 其 披露 风险 ， 判 断 发 
布 当前 的 位 置 数据 是 否 违反 用 户 的 隐私 要 求 。 因 此 ， 这 种 位 置 大 数据 的 隐私 保护 技术 可 以 在 攻击 者 具有 完全 的 背景 知识 的 情况 
下 ， 在 统一 的 位 置 大 数据 攻击 模型 下 ， 定 量 地 保护 用 户 的 位 置 隐私 。 


基于 隐私 信息 检索 技术 的 位 置 大 数据 隐私 保护 技术 : 当 用 户 要 求 定义 完美 隐私 时 ， 由 于 发 布 位 置信 息 或 多 或 少 地 会 为 攻击 者 
带 来 一 些 信息 ， 这 时 会 导致 没有 数据 可 以 发 布 ， 用 户 也 因而 无 法 获得 基于 位 置 大 数据 的 服务 。 基 于 隐私 信息 检索 的 位 置 大 数据 保 
护 技术 ， 可 以 在 任何 情况 下 保护 移动 用 户 的 隐私 。 但 在 位 置 大 数据 上 的 应 用 服务 中 ， 由 于 用 户 查 询 本 身 包含 位 置信 息 ， 很 长 时 间 
内 都 不 存在 可 以 在 不 解密 用 户 查询 的 情况 下 回答 复杂 的 基于 位 置 的 查询 的 加 密 算法 。 尽 管 最 近 的 研究 结果 发 现 ， 基 于 同 态 映射 的 
加 密 方 法 可 以 在 不 暴露 用 户 位 置 隐私 的 情况 下 返回 正确 的 查询 结果 ， 但 最 新 的 结果 显示 ， 因 为 高 效 的 数据 访问 方法 暴露 了 数据 
之 间 的 顺序 ， 可 以 提供 完美 隐私 的 高 效 加 密 方法 是 不 存在 的 。 
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Transactions on Database Systems (TODS) , 2011, 36 (2) : 10. 

[2] Kim M, Fielding J, Kotz D. Risks of Using AP Locations Discoveted Thtrough War dtiving [C] . International Conference on 
Pervasive Computing. Springer Berlin Heide-lberg, 2006: 67-82. 


[3] Gentty C. A Fully Homomorphic Enctyption scheme [D|] . Stanford: Stanford University, 2009. 


5.3.2 ”数据 发 布 和 分 析 中 的 隐私 保护 


随 着 数据 分 析 和 发 布 等 应 用 需求 的 出 现 和 发 展 ， 如 何 保护 隐私 数据 和 防止 敏感 信息 泄露 成 为 当前 面临 的 重大 挑战 。 基 于 k- 匿 
名 或 者 划分 的 隐私 保护 方法 ， 只 适应 特定 背景 知识 下 的 攻击 而 存在 严重 的 局 限 性 。 差 分 隐私 作为 一 种 新 出 现 的 隐私 保护 框架 ， 能 
够 防范 攻击 者 在 拥有 任意 背景 知识 情况 下 的 攻击 并 提供 有 力 的 保护 。 对 隐私 数据 的 发 布 和 分 析 均 有 可 能 导致 个 人 敏感 信息 的 汇 
露 ， 发 布 的 数据 要 能 够 防止 数据 收集 者 与 攻击 者 的 攻击 ; 而 所 设计 的 分 析 方 法 ， 则 要 在 给 出 分 析 结 果 时 防止 泄露 个 人 隐私 信息 。 
针对 上 述 两 种 应 用 场景 ， 本 节 对 差分 隐私 保护 领域 已 有 的 研究 成 果 进 行 了 总 结 ， 对 该 技术 的 基本 原理 和 特征 进行 了 阐述 ， 重 点 对 
当前 的 数据 发 布 和 分 析 工 作 进行 了 概述 和 总 结 。 


(1) 差分 隐私 保护 框架 
差分 隐私 下 数据 保护 框架 通常 有 两 种 : 交互 式 框架 和 非 交 互 式 框架 。 


交互 式 的 差分 隐私 保护 框架 也 可 以 称 为 在 线 查询 框架 ， 其 基本 结构 如 图 5-2 所 示 。 当 数据 分 析 者 通过 查询 接口 提交 查询 Q 
时 ， 数 据 拥有 者 会 根据 查询 需求 ， 设 计 满 足 差分 隐私 的 查询 算法 ， 经 过 差分 隐私 算法 过 滤 后 ， 把 结果 O' 返 回 给 用 户 。 分 析 者 提 
交 的 查询 通常 包含 一 定 的 语义 约束 ， 这 会 使 得 返回 结果 的 可 用 性 较 低 。 数 据 拥有 者 常 采 用 后 置 处 理 技术 对 噪声 结果 进行 求 精 处 
理 。 由 于 交互 式 框架 只 允许 数据 分 析 者 通过 查询 接口 提交 查询 ， 查 询 数 目 决定 着 该 框架 的 误差 和 性 能 ， 若 提交 查询 的 数目 超过 某 
个 上 界 ， 隐 私 预算 = 会 被 耗 尽 ， 该 框架 则 不 能 满足 差分 隐私 。 该 框架 所 支持 的 查询 通常 包括 聚集 查询 、 批 量 查 询 以 及 提交 的 数据 
挖掘 任务 等 。 


数据 分 析 者 


人 提交 查询 任务 2 








数据 所 有 者 


隐私 
数据 库 
















分 隐私 的 








6) 含 噪声 的 结果 O' (@) 响 应 结果 0 


图 5-2 ”交互 式 框架 


非 交 互 式 框架 也 称 为 离线 发 布 框架 ， 其 基本 结构 如 图 5-3 所 示 。 数 据 拥 有 者 通过 差分 隐私 发 布 算法 来 发 布 数据 库 的 相关 统计 
言 息 。 数 据 分 析 者 向 发 布 数据 库 提 交 查 询 或 者 挖掘 任务 Q 并 得 到 噪声 结果 O-'。 非 交互 式 发 布 框架 下 的 主要 研究 是 如 何 设计 高 效 的 
发 布 算法 ， 该 类 算法 既 要 满足 差分 隐私 ， 又 要 具有 高 的 可 用 性 。 目 前 ， 数 据 拥 有 者 采用 数据 压缩 、 数 据 转换 与 采样 过 滤 等 技术 对 
原始 数据 进行 处 理 以 达到 缩减 发 布 误 差 和 查询 误差 的 目的 。 此 外 ， 数 据 发 布 过 程 中 ， 合 理 的 隐私 预算 分 配 策略 也 是 保证 差分 隐私 
成 立 的 天 键 。 


数据 所 有 者 
基于 差分 隐私 
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图 5-3” 非 交互 式 框 架 
以 下 主要 根据 非 交 互 式 框架 介绍 数据 发 布 方法 的 两 种 策略 。 


1) 发 布 策略 1: 先 对 原始 数据 或 者 原始 数据 的 统计 信息 添加 噪声 ， 然 后 对 加 过 噪声 的 数据 采用 规划 策略 (如 二 次 规划 、 凸 
规划 等 ) 进行 优化 ， 最 后 发 布 优化 结果 。 这 类 方法 的 隐私 代价 通常 比较 大 。 该 策略 的 基本 流程 如 图 5-4 所 示 。 


输入 : 原始 数据 和 fx, x,,…, xX,} 
1. 添 加 噪声 对 X 进 行 扰动 ， 咎 Co+Lap (Af18), +Lap (Af1e),…， 
Xi+Lap(AJjs) } 
2. 采 用 后 置 处 理 技术 把 2 优化 成 为 了 


输出 : 优化 后 的 发 布 数 据 X. 





图 5-4 策略 1 发 布 流程 


2) 发 布 策略 2: 先 转换 或 者 压缩 原始 数据 ， 再 对 转换 后 的 数据 添加 噪声 。 这 类 方法 主要 针对 减少 发 布 误差 ， 以 及 提高 数据 
可 用 性 等 。 尽 管 这 种 策略 响应 查询 的 精度 较 高 ， 然 而 数据 转换 或 者 压缩 会 带 来 原始 数据 的 信息 缺损 。 该 策略 的 基本 思想 如 图 5-5 
所 示 。 


输入 原 台数 据 耻 先 2 0 % 
1: 将 骆 # 换 或 压缩 成 Y= fx 降低 敏感 性 和 噪声 需求 


2: 对 浆 浴 加 噪声 ， 则 和 二 fx 和 + Lap(AJjs), ,x+Lap(A1jas)} 


答 出 :优化 后 的 发 布 数 据 X" 





图 5-5 ”策略 2 发 布 流 程 


(2) 数据 发 布 方法 


基于 上 述 两 类 发 布 策略 ， 已 有 的 发 布 技术 主要 分 为 两 类 : 基于 直方 图 的 发 布 方法 和 基于 划分 的 发 布 方法 。 

直方 图 使 用 分 箱 技术 近似 描述 数据 统计 信息 ， 将 一 个 比较 大 的 数据 集 按照 某 属性 划分 成 不 相交 的 桶 ， 每 个 桶 由 一 个 数字 表示 
其 特征 。 直 方 图 可 以 分 成 等 宽 直 方 图 [1|、V- 优 化 直方 图 [9 等 多 种 类 型 。 

基于 划分 的 发 布 方法 通常 基于 发 布 策略 2， 考 虑 如 何 设计 支持 数据 划分 的 索引 结构 ， 并 依据 索引 结构 发 布 隐私 数据 。 常 用 的 
索引 划分 结构 分 为 基于 树 结构 的 划分 与 基于 网 格 结构 的 划分 。 这 两 种 划分 均 要 考虑 是 否 在 原始 的 基础 数据 上 划分 ， 如 果 是 在 基础 
数据 上 进行 的 划分 ， 则 称 为 数据 依赖 的 划分 ， 该 类 划分 可 能 会 使 得 划分 结构 自身 泄露 数据 隐私 ; 如 果 是 在 查询 空间 上 的 划分 ， 而 
没有 涉及 基础 数据 ， 则 称 为 数据 独立 的 划分 。 

(3) 数据 分 析 方法 

数据 分 析 的 目的 在 于 从 数据 中 抽取 或 者 学 习 到 有 价值 的 模型 和 规则 。 模 型 与 规则 中 的 敏感 信息 可 能 导致 个 人 隐私 泄露 ， 所 以 
隐私 保护 的 数据 挖掘 和 机 器 学 习 得 到 广泛 关注 。 


1) 基于 频繁 模式 挖掘 的 分 析 方 法 : 频繁 模式 挖掘 是 数据 分 析 主 要 技术 之 一 ， 其 目的 是 找 出 频繁 出 现在 数据 集中 的 模式 。 然 
而 频繁 模式 本 身 的 内 容 以 及 相应 的 频 度 有 可 能 泄露 用 户 隐私 信息 。 基 于 差分 隐私 的 模式 挖掘 主要 是 为 了 保护 模式 的 频 度 不 被 披 
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2) 基于 分 类 的 分 析 方 法 : 分 类 技术 在 数据 预测 分 析 中 起 着 关键 作用 ， 在 决策 树 算 法 中 ， 叶 节点 表示 一 个 类 。 结 合 差分 隐私 
与 决策 树 的 代表 方法 分 别 是 SuLQ-based ID3B]、DiffP-C4.5 欠 以 及 DiffGenP]。 这 三 种 方法 在 生成 分 类 器 时 类 似 于 ID3， 主 要 是 
考虑 决策 树 各 个 节点 上 分 割 属 性 的 选择 问题 。 


3) 基于 聚 类 的 分 析 方法 : 聚 类 同样 是 数据 分 析 的 主要 技术 ， 它 是 把 数据 对 象 划分 成 多 个 艇 的 过 程 ， 而 在 聚 类 过 程 中 数据 隐 
私 可 能 被 泄露 ， 如 均值 、 中 心 点 与 中 值 等 。 满 足 差分 隐私 的 k- 均 值 聚 禾 中 心 发 布 方法 Pk-means[g] 结 合 了 采样 与 聚集 技术 ， 该 方 
法 给 出 了 聚 类 敏感 性 的 度量 方法 以 及 聚 类 误差 的 下 界 。 此 外 ， 在 k- 均 值 聚 类 过 程 中 ， 隐 私 预算 s 的 设置 也 非常 关键 ， 包 括 两 种 分 
配方 法 [/]。 一 是 进 代 次 数 n 已 知情 况 下 ， 每 一 轮 聚 类 预算 为 e/n; 二 是 迭代 次 数 不 知 道 的 情况 下 ， 每 次 所 分 配 的 预算 为 上 次 剩余 
预算 的 一 半 。 


4) 回归 分 析 方 法 : 常用 的 回归 分 析 方 法 包括 逻辑 斯 详 回 归 与 线性 回电。 回归 分 析 通 常 有 两 类 函数 ， 一 是 预测 函数 ， 二 是 目 
标 函 数 ， 或 者 称 为 风险 函数 。 无 论 是 线性 回归 还 是 逻辑 斯 详 回 归 分 析 ， 通 常 归结 为 目标 函数 的 最 优化 问题 。 该 问题 的 形式 化 描述 
如 下 : 给 定 的 训练 数据 集 D={t1，t2，…，tn} 有 n 个 元 组 ， 每 个 元 组 包含 qd+ 1 个 属性 一 一 x1，…，xd，y， 其 中 
xiERn，yE{0，1}， 或 者 yE[-1，1]。 元 组 ti= (xi，yi) ， 其 中 x 球 示 (x1，x2，…，xd) 向 量 。 假 设 p (xi) 表示 预测 冰 数 ， 该 
函数 通常 由 向 量 xi 与 其 相应 的 权重 向 量 w* 的 参数 化 形式 表示 。 
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5.3.3 ”互联 网 搜索 中 的 隐私 保护 


随 着 信息 技术 的 快速 发 展 和 信息 量 的 剧 增 ， 互 联网 已 成 为 海量 信息 空间 。 它 吸引 了 越 来 越 多 的 信息 进入 其 中 。 随 着 时 代 的 发 
展 ， 信 息 的 来 源 也 在 逐渐 发 生变 化 。 由 初期 的 网 站 建设 者 和 管理 者 作为 唯一 的 信息 发 布 者 的 模式 ， 逐 渐 转 变 为 普通 Web 用 户 人 
人 均 可 作为 信息 发 布 者 的 共享 合作 模式 。 由 于 Web 信 息 发 布 的 开放 性 与 低 门 覆 ， 网 络 中 的 信息 量 越 来 越 大 ， 同 时 信息 的 组 成 也 
越 来 越 复 杂 ， 其 中 有 一 部 分 是 与 用 户 有 天 的 个 人 信息 。 虽 然 关 于 某 个 用 户 的 信息 通常 分 散 分 布 在 看 似 没有 任何 联系 的 多 个 网 页 
上 ， 但 是 今天 的 Web 已 经 被 多 个 搜索 引擎 高度 索引 了 ， 搜 索引 警 强大 的 索引 能 力 能 够 帮助 人 们 找到 所 需要 的 信息 ， 但 也 为 恶意 
的 隐私 挖掘 者 提供 了 便利 。 


(1) 隐私 攻击 过 程 模型 


网 络 上 与 Web 用 户 有 关 的 信息 多 种 多 样 。 为 了 形式 化 地 描述 该 问题 ， 根 据 性 质 的 不 同 ， 我 们 将 Web 上 与 用 户 有 关 的 个 人 信 
息 分 为 如 下 三 类 。 


1) 身份 信息 (以 | 表示 ) : 一 个 人 公开 的 社会 化 身份 。 例 如 ， 社 会 安全 号 、 身 份 证 号 、 姓 名 、 职 业 和 所 属 公司 等 ， 这 类 信息 
通常 被 用 以 唯一 地 确认 用 户 的 身份 。 


2) 隐私 敏感 信息 (以 S 表 示 ) : 与 用 户 个 人 隐私 相关 的 所 有 信息 。 例 如 ， 患 有 某 些 疾病 ， 或 有 柄 酒 、 赌 博 等 恶习 。 值 得 注 
意 的 是 ， 隐 私信 息 并 没有 固定 的 界限 ， 是 根据 不 同 用 户 的 定义 进行 调整 的 。 


3) 其 他 信息 (以 0 表示) : 除 | 信息 和 9 信息 外 的 所 有 信息 ， 这 类 信息 不 会 直接 显示 用 户 的 身份 ， 也 不 会 直接 涉及 隐私 ， 例 
如 ， 兴 趣 、 教 育 水 平 、 婚 姻 状 态 等 信息 。 这 类 信息 常 被 用 作 判 断 某 个 数据 项 是 否 属于 某 个 用 户 的 辅助 判断 条 件 。 


同时 给 出 基于 搜索 隐私 的 隐私 挖掘 攻击 的 定义 : 隐私 攻击 者 使 用 搜索 引 警 寻找 并 收集 Web 上 的 关于 某 一 用 户 的 个 人 信息 ， 
直到 获得 该 用 户 的 身份 信息 和 隐私 敏感 信息 为 止 。 





经 过 抽象 与 简化 ， 基 于 搜索 引擎 的 隐私 挖掘 攻击 的 核心 过 程 如 图 5-6 所 示 。 


图 5-6 的 左边 部 分 表示 互联 网 上 的 三 类 用 户 信息 被 搜索 引擎 “ 爬 取 ”， 进 入 索引 数据 库 中 。 图 右边 部 分 表示 隐私 挖掘 攻击 的 
全 过 程 。 


互联 网 


获取 相关 
数据 项 





图 5-6 基于 搜索 引擎 的 Web 隐 私 挖掘 模 型 框架 图 
在 发 起 隐私 挖掘 之 前 ， 攻 击 者 已 知 用 户 的 一 些 信息 ， 称 为 已 知 集 。 这 是 进行 基于 搜索 引擎 的 隐私 挖掘 攻击 的 必要 启动 条 件 。 
如 果 已 知 信息 中 包含 | 信息 ， 则 攻击 者 的 目的 是 找到 


| 信息 、S 信 息 或 O 人 信息， 甚至 可 能 同时 包含 和 O 信 息 、S 和 O 信 息 





它 可 能 是 


该 用 户 相应 的 S 信 息 ， 反 之 亦 然 。 
以 已 知 集中 的 信息 作为 查询 关键 字 ， 通 过 搜索 引擎 发 起 信息 的 


为 了 不 失 一 般 性 ， 我 们 假设 攻击 者 最 初 拥有 的 信息 是 | 信息 
收集 。 当 攻击 者 得 到 搜索 引擎 的 返回 结果 页 面 时 ， 从 这 些 网 页 中 抽取 出 目前 还 未 知 的 、 有 价值 的 信息 项 ， 并 根据 某 些 判断 条 件 判 


别 某 个 信息 项 是 否 属于 该 用 户 。 新 找到 的 信息 可 能 是 |、S、O 信 息 或 它们 的 组 合 。 
若 新 找到 的 信息 包含 信息， 而 且 经 过 判断 能 够 断定 它们 是 关于 该 用 户 的 信息 ， 则 该 受害 者 用 户 的 身份 信息 和 隐私 信息 均 已 
被 攻击 者 获取 ， 用 户 的 隐私 泄露 ， 隐 私 攻击 成 功 。 若 新 找到 的 信息 仅 包含 | 信息 和 O 信 息 ， 则 将 经 过 判断 后 能 够 断定 确实 属于 该 
用 户 的 数据 项 插入 已 知 集中 。 在 下 一 轮 查询 中 ， 攻 击 者 从 已 知 集 选 取 数 据 项 作为 天 键 字 ， 再 使 用 搜索 引擎 进行 新 信息 的 查找 。 然 
后 检查 本 轮 查询 中 新 找到 的 信息 是 否 包 含 该 用 户 的 S 信 息 。 
隐私 信息 挖掘 攻击 是 一 个 循环 的 过 程 ， 攻 击 者 不 断 重 复 上 述 过 程 ， 收 集 该 用 户 分 散在 Web 上 的 所 有 信息 ， 直 至 找到 3 信息 为 
止 。 之 前 查询 的 返回 结果 被 用 作 之 后 查询 的 输入 关键 字 。 通 过 网 页 的 信息 之 间 的 关联 关系 ， 该 用 户 分 散在 网 络 各 处 的 信息 将 被 逐 
渐 收 集 到 一 起 ， 导 致 信息 被 挖掘 。 如 果 将 上 述 的 隐私 挖掘 循环 过 程 展开 ， 得 到 的 隐私 攻击 过 程 类 似 于 一 条 路 径 。 沿 着 这 条 路 径 ， 
攻击 者 能 够 将 Web 用 户 的 ! 信 息 和 9 信息 关联 起 来 。 每 一 次 成 功 的 隐私 挖掘 攻击 都 能 够 视 为 一 条 联通 的 隐私 挖掘 路 径 。 


(2) 隐私 泄露 自动 探测 服务 
基于 搜索 引擎 的 隐私 挖掘 攻击 的 本 质 是 挖掘 Web 上 公开 的 、 能 够 被 搜索 引 警 所 索引 到 的 信息 之 间 的 天 联 关系 ， 从 而 获取 用 


户 的 隐私 。 然 而 ， 用 户 通常 不 会 记得 自己 在 Web 上 发 布 过 的 所 有 信息 ， 因 此 该 问题 易 被 忽略 且 难 以 预防 。 
目前 已 有 的 隐私 安全 保护 方法 ， 通 常 只 能 解决 某 一 类 具体 环境 中 的 隐私 攻击 问题 ， 不 适合 基于 搜索 引擎 的 隐私 挖掘 攻击 涉及 


整个 Web 的 具体 情况 。 本 节 主 要 针对 该 情况 ， 介 绍 基于 图 最 优选 择 的 隐私 泄露 自动 探测 服务 ， 相 应 算法 能 够 为 Web 用 户 检测 已 
因为 基于 搜索 引擎 的 隐私 挖掘 攻击 而 导致 隐私 泄露 ， 从 而 为 用 户 发 布 信息 提供 参考 。 


主 自 旦 生 会 


人 存在 于 网 络 上 的 信息 是 否 会 


隐私 泄露 自动 检测 方法 能 够 有 效 帮 助 用 户 抵御 隐私 挖掘 攻击 ， 其 基本 流程 是 : Q@ 收 集 用 户 分 散在 Web 上 的 信息 ， 并 记录 每 
一 步 使 用 搜索 引擎 的 天 键 字 ， 形 成 “用 户 信息 结构 图 ”; @ 对 用 户 信息 图 进行 合并 化 简 ， 减 低 图 的 规模 ; @ 考 虑 顶点 影响 因素 空 
间 ， 为 顶点 赋 一 个 合理 的 概率 值 ， 表 明 此 顶点 属于 该 用 户 的 可 能 性 值 ; @@ 在 图 上 进行 隐私 挖掘 路 径 的 查找 ， 即 从 含有 | 信息 的 顶 
点 到 含有 S 信 息 的 项 点 之 间 的 联通 概率 值 最 大 的 路 径 。 


该 服务 实际 上 是 以 隐私 攻击 者 的 角度 ， 根 据 每 个 用 户 的 信息 分 布 状态 图 ， 尝 试 寻找 | 信息 和 S 信 息 之 间 的 通路 ， 并 评估 该 通路 
可 能 存在 的 概率 值 。 


隐私 泄露 自动 探测 服务 是 一 种 由 可 信 的 第 三 方 提供 的 服务 ， 担 心 自己 在 Web 上 发 布 信息 会 导致 隐私 泄露 的 用 户 可 以 订购 这 
种 服务 。 在 实际 的 隐私 挖掘 过 程 中 ， 某 一 个 数据 项 应 被 归 为 哪 一 类 个 人 信息 (|、3 或 9) 是 不 固定 的 ， 需 要 根据 不 同 用 户 的 要 求 
进行 归 类 。 例 如 ， 一 些 用 户 认 为 他 们 的 手机 号 码 是 个 人 隐私 ， 应 该 属于 S 信 息 ; 而 另 一 些 用 户 可 能 更 愿意 公开 他 们 的 手机 号 码 ， 
以 便 与 其 他 网 友 更 方便 地 交流 ， 这 些 用 户 会 把 手机 号 归 为 O 信 息 或 | 信息 。Web 用 户 需要 提供 个 人 对 信息 分 类 的 要 求 ， 作 为 隐私 
探测 服务 算法 的 输入 。 


5.34 云 计算 中 的 隐私 保护 


随 着 信息 产业 的 发 展 ， 企 业 和 政府 机 构 产 生 的 数据 量 快速 增长 ， 如 何 管理 和 分 析 海 量 数 据 是 目前 医疗 、 通 信 、 交 通 及 互联 网 
等 很 多 领域 面临 的 问题 。 传 统 的 数据 管理 系统 对 于 如 此 大 规模 的 数据 管理 已 不 再 有 效 ， 即 便 它们 能 够 管理 大 规模 数据 ， 但 所 花费 
的 相关 软 硬 件 以 及 维护 成 本 也 会 让 大 部 分 企业 望 洋 兴叹 。 自 从 2006 年 Google 公 司 推出 BigTable 以 来 ， 云 计算 概念 呈现 在 大 众 面 
前 。 作 为 云 计算 基础 的 云 数据 库 系 统 是 由 大 量 性 能 普通 、 价 格 便宜 的 计算 节点 组 成 的 一 种 无 共享 大 规模 并 行 处 理 环境 ， 它 克服 了 
管理 海量 数据 成 本 过 高 的 缺点 。 另 外 ， 云 数据 库 系 统 结合 了 网 络 化 和 虚拟 化 技术 来 实现 超级 计算 和 人 存储 能 力 ， 具 有 高 可 靠 性 、 高 
扩展 性 、 通 用 性 、 按 需 分 配 等 优点 。 


(1) 云 计算 环境 中 的 隐私 问题 


云 计 算 中 一 般 有 三 个 角色 : 数据 拥有 者 、 查 询 用 户 和 云 计 算 平 台 。 数 据 拥 有 者 将 数据 提供 给 云 计算 平台 进行 存储 ， 查 询 用 户 
通过 云 计 算 平台 提供 的 查询 接口 对 数据 进行 查询 。 三 方 参与 的 云 计算 模型 如 图 5-7 所 示 。 云 计算 中 面向 查询 处 理 的 隐私 保护 技术 
主要 关注 以 下 两 个 方面 。 
































| Mame Sexuality Age Education Location | 

|Tim Bridler M 25 Collage Chieage, US | 

[Vivian Teper 本 26 University | London, UK | 人 查 询 结 果 Tim Bridler 
| Jessica Fox F 28 |High School | L.A.US | 外 包 

| Simon Weat M 3 Graduate N.Y.C. US | 

















| EY 
| 数据 拥 有 者 Cindy asks: who matches my profile 


“21, College, Chicago, IL””? 





图 5-7 云 计算 模型 


1) 用 户 的 查询 隐私 。 在 云 计 算 环境 中 ， 查 询 用 户 通过 向 云 计 算 平台 发 出 查询 来 获取 服务 。 然 而 ， 用 户 提交 的 查询 有 可 能 暴 


露 用 户 的 个 人 隐私 。 用 户 在 享受 查询 服务 的 同时 ， 更 希望 自己 的 查询 隐私 能 得 到 保护 。 用 户 的 查询 隐私 保护 是 指 通 过 采用 隐私 保 
护 技术 ， 使 去 数据库 系统 和 数据 拥有 者 不 能 获知 用 户 的 查询 内 容 ， 也 不 能 通过 用 户 的 查询 推导 出 关于 用 户 的 任何 信息 。 


2) 数据 拥有 者 的 数据 隐私 。 在 云 计算 环境 中 ， 数 据 拥 有 者 将 自己 持 有 的 数据 存储 到 云 计算 平台 上 ， 通 过 用 户 有 偿 地 使 用 云 
计算 提供 的 服务 而 获 益 。 因 此 ， 数 据 拥 有 者 的 数据 一 方面 不 能 暴露 给 云 计算 平台 ， 另 一 方面 也 不 能 暴露 给 查询 用 户 ， 也 就 是 襄 ， 
查询 用 户 只 能 得 到 与 查询 相关 的 结果 ， 不 能 额外 获得 任何 与 查询 结果 无 关 的 数据 ， 否 则 就 损害 了 数据 拥有 者 的 利益 。 在 上 述 例子 
中 ， 用 户 Cindy 只 能 得 到 与 自己 背景 相近 的 人 的 姓名 和 联系 方式 ， 但 不 能 获取 他 们 具体 的 年 龄 、 教 育 背 景 等 信息 。 简 单 地 说 ， 数 
据 拥 有 者 的 数据 隐私 保护 是 指 通 过 隐私 保护 技术 ， 防 止 查询 内 容 以 外 的 数据 泄露 给 查询 用 户 或 者 云 计算 平台 。 


综 上 所 述 ， 对 云 计 算 的 各 个 参与 方 而 言 ， 面 向 隐私 保护 的 查询 处 理 都 是 迫切 需要 解决 的 问题 : 对 查询 用 户 而 言 ， 如 果 在 查询 
处 理 中 隐私 保护 机 制 不 完善 ， 用 户 由 于 担心 查询 隐私 的 泄露 ， 将 尽量 减少 使 用 云 计 算 服 务 ; 对 数据 拥有 者 来 说 ， 若 查询 处 理 暴露 
其 拥有 的 数据 的 隐私 ， 不 仅 涉 及 商业 利益 的 问题 ， 而 且 还 可 能 面临 法 律 诉讼 的 风险 ; 对 于 云 数据 库 系统 而 言 ， 如 果 用 户 隐私 得 不 
到 保障 ， 其 服务 的 可 靠 性 将 会 受到 质疑 。 因 此 ， 人 迫切 需要 一 种 能 在 云 计算 中 同时 保护 查询 隐私 和 数据 隐私 的 新 型 查询 处 理 技术 ， 
以 全 面 保护 查询 用 户 、 数 据 拥 有 者 和 云 数 据 库 系统 的 隐私 ， 云 计算 中 面向 隐私 保护 的 查询 处 理 技术 的 研究 应 运 而 生 。 


(2) 云 计 算 环境 中 的 隐私 保护 策略 


云 计算 中 的 隐私 问题 受到 诸多 关注 ， 研 究 者 们 针对 云 计 算 中 的 数据 发 布 、 数 据 挖掘 等 隐私 问题 展开 了 研究 。 云 计算 中 面向 查 
询 处 理 的 隐私 保护 技术 需要 借鉴 外 包 数 据 库 和 分 布 式 数据 库 中 的 隐私 保护 技术 。 在 外 包 数 据 库 中 ， 隐 私 保护 的 处 理 主 要 是 基于 加 
密 的 方式 ， 同 时 还 存在 着 对 查询 结果 完整 性 验证 的 机 制 ; 在 分 布 式 系统 中 ， 面 向 隐私 保护 的 查询 处 理 主要 是 基于 安全 多 方 计算 
(Secure Multi-party Computation，SMC) 技术 。 下 面 分 别 介绍 这 几 类 技术 的 研究 现状 。 


1) 基于 加 密 的 隐私 保护 策略 : 在 数据 外 包 的 隐私 保护 处 理 中 ， 数 据 拥有 者 在 服务 器 上 的 数据 是 以 加 密 的 方式 存储 的 。 查 询 
用 户 的 查询 也 用 相同 的 方式 加 密 ， 再 发 送 给 服务 器 进行 查询 处 理 。 不 可 信 的 服务 提供 者 为 数据 拥有 者 提供 数据 存储 和 查询 服务 ， 
查询 用 户 通 常 被 认为 是 可 信 的 。 外 包 数 据 库 面 向 隐私 保护 的 查询 处 理 主要 是 基于 加 密 方法 实现 的 。 在 数据 外 包 环 境 中 ， 用 户 不 但 
同时 拥有 数据 并 产生 查询 ， 还 可 以 设计 一 个 加 密 模式 支持 在 加 密 数据 上 的 某 些 查询 。 但 是 ， 在 数据 拥有 者 和 查询 用 户 不 是 同一 方 
的 应 用 中 ， 很 难 甚 至 不 可 能 找到 一 种 加 密 模式 可 以 支持 在 加 密 数据 上 的 多 种 查询 处 理 。 比 如 ， 空 间 变 换 在 数据 外 包 中 是 一 种 常用 
的 加 密 模 式 ， 然 而 因为 这 种 方法 不 能 保存 在 原始 空间 中 的 精确 数据 ， 所 以 该 加 密 模式 不 支持 一 些 需要 精确 距离 的 查询 ， 比 如 最 近 
邻 查询 。 即 使 可 以 找到 一 种 加 密 模式 支持 多 种 查询 处 理 ， 该 加 密 模式 必须 在 查询 方 和 服务 器 方 同 时 部 署 ， 一 方 可 以 使 用 加 密 参 数 
把 对 方 的 数据 解密 。 为 了 防止 这 个 漏洞 ， 需 要 引入 一 个 可 信 的 第 三 方 产生 加 密 参 数 ， 这 个 加 密 参数 必须 分 别 存储 在 双方 防止 自 改 
的 设备 中 。 此 外 ， 许 多 加 密 模式 在 有 安全 攻击 情况 下 是 很 脆弱 的 。 比 如 空间 变换 方法 在 主 成 分 分 析 方 法 下 很 容易 被 识破 。 数 据 库 
在 外 包 应 用 中 由 于 保护 隐私 的 需求 ， 需 要 服务 提供 商 存 储 的 数据 是 经 过 加 密 以 后 的 数据 ， 这 样 可 以 保证 企业 的 机 密 信 息 不 会 汇 
露 。 但 是 数据 在 经 过 普通 加 密 方法 加 密 后 ， 可 用 性 大 大 下 降 ， 这 样 会 给 服务 提供 方 ， 以 及 查询 用 户 带 来 很 多 的 额外 开销 。 因 此 ， 
在 数据 库 外 包 的 应 用 中 需要 能 够 有 效 支持 数据 操作 的 加 密 算法 。 


2) 基于 安全 多 方 计算 的 隐私 保护 策略 : 安全 多 方 计算 是 在 一 个 分 布 式 网 络 下 ， 由 多 个 参与 方 提供 输入 来 计算 某 个 函数 的 

值 。 在 计算 过 程 中 ， 除 了 参与 者 的 输入 以 及 输出 所 暗合 的 信息 之 外 ， 不 会 额外 泄露 参与 方 的 任何 信息 。 目 前 已 有 一 些 基于 安全 多 
方 计算 (SMC) 的 隐私 保护 方法 。 在 SMC 中 最 基本 的 问题 是 百 万 富翁 问题 。 理 论 上 讲 ， 百 万 富翁 问题 和 多 方 计 算 问题 都 可 以 用 
电路 评估 协议 解决 。 在 这 个 协议 中 ， 隐 私 保 护 函 数 用 一 个 布尔 电路 来 表示 ， 每 个 部 分 在 不 暴露 各 自 输入 的 情况 下 ， 联 合 起 来 对 电 
路 的 输出 进行 评估 。 各 个 部 分 之 间 的 通信 代价 由 电路 大 小 、 输 入 域 大 小 以 及 函数 的 复杂 程度 决定 。 如 果 数 据 中 的 属性 是 由 不 同 的 
参与 方 提供 的 ， 数 据 会 被 垂直 划分 。 在 垂直 数据 划分 上 也 有 一 些 研究 工作 。 然 而 ， 基 于 SM5 的 解决 方案 产生 的 计算 代价 和 通信 
代价 过 高 ， 许 多 基于 SMC 的 算法 都 是 内 存 算 法 ， 要 求 数据 全 部 驻 留 在 内 存 中 ， 因 此 这 种 方法 不 能 被 直接 用 于 云 计算 中 有 几 百 万 
条 记录 的 大 数据 集 上 。 


3) 查询 结果 的 完整 性 验证 : 数据 库 在 外 包 给 第 三 方 服务 提供 商 之 后 ， 需 要 提供 额外 机 制 保证 外 包 数 据 库 中 的 数据 不 会 被 未 
经 授权 的 攻击 者 修改 ， 服 务 提供 商 不 能 任意 向 数据 库 中 增加 元 组 ， 或 者 删除 数据 库 中 的 元 组 。 用 户 查询 返回 的 结果 应 该 是 未 经 修 
改过 的 数据 库 中 的 原始 数据 ， 且 查询 返回 的 结果 是 完整 的 ， 没 有 缺失 任何 有 效 解 。 一 种 基于 概率 的 外 包 数 据 库 结果 完整 性 验证 方 
法 的 思想 是 ， 如 果 数 据 拥有 者 在 将 数据 外 包 给 第 三 方 服务 提供 商 时 ， 在 数据 中 混入 了 一 组 特别 的 监测 元 组 ， 那 么 对 于 外 包 数 据 库 
上 的 所 有 查询 ， 这 些 混在 原始 数据 中 的 监测 元 组 就 会 以 一 定 概率 包含 在 查询 结果 中 ， 并 返回 给 提交 查询 的 用 户 。 因 此 ， 用 户 可 以 
通过 监控 这 些 额 外 插入 的 元 组 来 监控 外 包 数 据 库 的 完整 性 。 如 果 一 个 满足 查询 条 件 的 监控 元 组 没有 被 返回 ， 那 么 用 户 就 可 以 断言 
其 完整 性 已 经 被 攻击 。 反 之 ， 如 果 所 有 满足 查询 条 件 的 监控 元 组 都 完整 地 返回 ， 则 以 一 定 概率 断定 完整 性 没有 受到 攻击 。 


5.4 ”大 数据 隐私 管理 


解决 大 数据 隐私 问题 的 当务之急 是 针对 不 同 的 风险 ， 建 立 混合 式 与 综合 性 隐私 管理 框架 ， 并 积极 拓展 隐私 管理 的 关键 技术 研 
究 。 本 节 主 要 介绍 一 种 大 数据 隐私 主动 式 管理 框架 。 


5.4.1 ”隐私 管理 的 目标 
隐私 管理 的 总 体 目标 是 利用 我 们 自己 的 管理 理念 和 方法 ， 像 管理 Web 数 据 、XM1L 数 据 与 移动 数据 一 样 管理 大 数据 隐私 。 具 
体 目标 包括 如 下 三 点 。 


1) 为 大 数据 的 应 用 提供 技术 支撑 : 隐私 是 大 数据 应 用 的 前 提 ， 若 隐私 问题 不 能 得 到 很 好 的 解决 ， 则 相应 的 应 用 很 有 可 能 成 
为 空谈 。 例 如 ， 防 止 数据 收集 者 、 数 据 分 析 者 和 分 析 结 果 的 使 用 者 恶意 泄露 隐私 信息 ， 防 止 大 数据 生命 周期 中 收集 、 处 理 、 存 
储 、 转 换 、 销 毁 各 个 阶段 中 隐私 的 泄露 。 


2) 为 那些 悬而未决 的 隐私 挑战 寻找 方法 : 目前 许多 领域 仍 未 找到 合适 的 隐私 保护 策略 ， 例 如 ， 医 疗 保障 和 研究 领域 中 ， 如 
何 挖掘 个 人 临床 数据 而 又 避免 保险 歧视 的 风险 ， 如 何 配 送 人 性 化 基因 药物 而 避免 医疗 数据 的 误 用 等 ; 市 场 营 销 领域 中 ， 如 何 确保 
消费 者 的 信息 在 进行 保险 决策 时 没有 被 滥用 。 


3) 给 打算 公开 数据 的 企业 和 个 人 一 颗 定 心 丸 : 对 于 想 公开 和 共享 数据 的 人 来 说 ， 数 据 隐私 是 第 一 位 的 。 在 不 泄露 数据 隐私 
的 前 提 下 ， 可 以 公开 数据 并 允许 其 他 用 户 访问 。 例 如 ， 为 科学 研究 公开 自己 的 位 置信 息 而 避免 恶意 跟踪 的 风险 ， 公 开 自 己 的 社交 
网 络 信息 而 避免 丢掉 工作 的 风险 等 。 


5.4.2 ”主动 式 隐私 管理 框架 

该 框架 包括 隐私 主动 监控 体系 、 隐 私 主动 评估 体系 、 隐 私 主动 管理 技术 体系 、 问 责 系统 体系 以 及 法 律 法 规 体 系 五 大 部 分 ， 为 
实现 大 数据 隐私 管理 提供 技术 支持 。 

(1) 隐私 风险 主动 监测 


隐私 风险 是 指 基 于 个 人 或 者 团体 数据 上 的 构成 隐私 泄露 的 操作 。 例 如 ， 一 个 恶意 攻击 者 在 网 站 中 植 入 意外 查询 ; 挖掘 社交 网 


络 数据 中 人 与 人 之 间 的 链接 关系 等 ， 这 些 操作 均 有 可 能 披露 隐私 。 隐 私 风险 主动 监测 (privacy risk active monitor) 体系 是 为 
了 在 处 理 大 数据 时 ， 能 够 主动 侦 测 到 那些 不 正当 的 或 者 在 有 恶意 的 操作 。 不 同 操作 的 目的 不 同 ， 例 如 ， 过 分 收集 数据 是 为 了 挖掘 
更 有 价值 的 知识 ; Spam、 免 费 App 和 广告 投放 是 为 了 获取 更 高 的 商业 利益 ; 窃取 身份 信息 、 泄 露 病人 病情 、 黑 客 入 侵 和 投放 计 
算 机 病毒 等 恶意 行为 是 为 了 窃取 财物 或 者 伤 及 别人 。 隐 私 风险 主动 监测 是 上 层 隐 私 管理 技术 与 法 律 法 规 的 基础 。 隐 私 风险 主动 监 
测 包含 两 个 层面 的 含义 : 其 一 是 在 缺乏 诚信 的 应 用 环境 中 主动 扫描 到 外 部 恶意 攻击 的 能 力 。 例 如 ， 免 费 App 是 否 扫描 自己 的 手机 
数据 ， 手 机 中 投放 过 来 的 移动 广告 是 否 记 录 自 己 的 地 理 位置 ，Web 搜 索 服务 是 否 利用 Cookies 技 术 记 录 自 己 的 会 话 记录 等 。 其 二 
是 向 上 层 管理 体系 主动 发 布 隐私 风险 的 能 力 。 目 前 常用 的 隐私 风险 监测 技术 基于 成 本 最 优 博弈 理论 (cost-optimal game- 


theoretical) [1]。 
(2) 隐私 风险 主动 评估 


隐私 风险 主动 评估 (privacy risk active assessment) 是 继 隐私 风险 主动 监测 之 后 的 管理 体系 ， 为 大 数据 应 用 提供 基础 性 服 
务 ， 是 支撑 大 数据 应 用 的 重要 手段 。 隐 私 风 险 主动 评估 同样 应 具有 两 层 含 义 : 其 一 是 在 某 个 大 数据 应 用 的 初级 阶段 能 够 主动 分 析 
出 隐私 风险 大 小 的 能 力 ; 其 二 是 具有 指导 上 层 隐 私 管理 技术 体系 选择 相应 技术 的 能 力 。 一 方面 可 以 通过 简单 的 问答 方式 
(Q&A) 进行 隐私 风险 评估 ， 例 如 ， 用 户 数据 在 服务 于 一 些 大 数据 应 用 时 ， 这 些 应 用 是 否 与 用 户 本 人 相关 ”如 果 用 户 数据 不 含 
敏感 信息 ， 则 个 人 隐私 风险 可 能 是 轻微 的 ; 如 果 涉 及 用 户 本 人 ， 应 该 给 出 什么 是 影响 隐私 泄露 的 原因 ， 哪 些 额外 操作 村 别 了 用 户 
数据 ， 涉 及 应 用 的 所 有 操作 是 否 可 信 等 。 另 一 方面 ， 可 通过 技术 手段 进行 隐私 风险 主动 评估 。PIA (Privacy Impact 
Assessment) 与 EBIOS (Expression of needs and identification of security objectives) 是 常用 的 风险 评估 技术 ， 其 中 PIA 
采用 阔 值 技术 评估 隐私 风险 ; 而 EBIOS 使 用 风险 严重 程度 与 发 生 的 可 能 性 来 衡量 隐私 风险 的 大 小 。 


在 进行 风险 评估 时 ， 为 了 避免 触及 原始 数据 ， 应 该 在 隐私 保护 下 进行 隐私 风险 评估 ， 常 用 的 方法 是 安全 多 方 计算 。 此 外 ， 也 
可 以 根据 隐私 风险 的 不 同等 级 ， 采 用 概率 模型 对 操作 的 敏感 性 和 可 见 性 进行 评估 ， 利 用 隐私 风险 打分 (privacy risk score) 机 
制 自动 为 相应 操作 给 出 分 值 并 起 到 预警 作用 。 


(3) 隐私 分 析 主 动 管理 
隐私 管理 技术 体系 为 整个 大 数据 隐私 管理 框架 提供 了 重要 的 技术 和 管理 支撑 ， 其 核心 涵盖 以 下 几 方 面 的 应 用 需求 。 


1) 支持 不 同类 型 的 查询 需求 : 在 隐私 管理 过 程 中 ， 查 询 通 常 是 数据 使 用 者 通过 交互 式 环境 提交 的 ， 是 大 数据 最 常用 的 应 用 
之 一 。 例 如 ， 聚 集 查 询 、top-k 查 询 、workload 查 询 、 范 围 计数 查询 和 直方 图 查询 等 。 


2) 支持 不 同 数 据 类 型 的 发 布 需 求 : 无 论 是 天 生 数 字 化 数据 还 是 天 生 模 拟 化 数据 ， 转 换 之 后 的 数据 均 可 以 表示 成 不 同 的 数据 
类 型 ， 如 关系 数据 、 图 数据 、 流 数据 和 字符 序列 数据 等 。 而 在 非 交 互 式 环境 下 发 布 这 些 隐私 数据 ， 将 有 利于 行业 内 科技 的 发 展 。 


3) 支持 数据 挖掘 与 机 器 学 习 的 分 析 需 求 : 数据 分 析 是 整个 大 数据 处 理 的 核心 ， 是 发 掘 大 数据 真实 价值 的 具体 过 程 。 例 
如 ，top-k 频 繁 模式 挖掘 、 线 性 与 逻辑 回归 、 支 持 向 量 机 分 类 、 深 度 学 习 等 。 


4) 支持 主动 或 者 自 适应 选择 隐私 管理 技术 的 需求 : 在 大 数据 管理 环境 中 ， 不 同类 型 的 数据 所 需 隐私 保护 程度 不 同 ， 使 用 的 
技术 也 不 相同 。 目 前 ， 隐 私 管理 技术 包括 匿名 化 技术 、 差 分 隐私 保护 技术 、 隐 私信 息 检索 技术 、 安 全 多 方 计算 技术 、 数 据 加 密 技 
术 等 。 隐 私 管 理 技术 体系 应 能 够 根据 不 同 的 数据 类 型 与 隐私 风险 评估 结果 ， 自 适应 或 者 主动 选择 相应 的 隐私 管理 技术 来 实现 大 数 
据 隐私 的 管理 。 


(4) 问 责 系统 


问 责 咎 是 指 当 一 个 实体 〈( 例 如， 项 目 负责 人 ) 的 行为 违反 了 某 一 策略 和 规则 ， 则 该 实体 应 当 受 到 惩罚 。 问 责 系统 
(accountable system) 是 隐私 管理 技术 体系 与 法 律 法 规 体系 之 间 的 桥梁 ， 与 隐私 管理 技术 体系 是 相辅相成 的 。 问 责 系 统 在 整 


个 隐私 管理 框架 中 起 到 的 作用 犹如 法 律 法 规 在 社会 中 起 到 作用 一 样 ， 对 违反 操作 策略 和 规定 的 人 起 到 追究 其 责任 的 作用 。 隐 私 管 
理 技术 通过 模糊 化 或 加 密 来 控制 数据 的 访问 ， 并 且 在 特定 的 攻击 模型 下 才能 生效 。 当 隐私 管理 技术 不 能 生效 时 ， 问 责 系统 起 着 问 
责 和 追究 责任 的 作用 。 


问 责 系统 结合 计算 机 技术 、 社 会 科学 与 法 律 法 规 对 整个 大 数据 操作 起 到 监管 作用 ， 其 功能 应 包含 三 点 : 具有 标记 不 妥当 操作 
的 能 力 ; 利用 策略 语言 标准 (如 AIR 语 言 ) 检验 是 否 违反 了 策略 与 规定 的 能 力 ; 给 出 相应 惩罚 的 能 力 。 此 外 ， 实 施 问 责 系统 需要 
数据 溯源 、 策 略 违反 检测 、 隐 私 审计 等 技术 的 支持 。 


(5) 法 律 法 规 


法 律 法 规 是 隐私 保护 技术 之 外 的 隐私 保障 手段 。 因 此 ， 在 管理 隐私 过 程 中 ， 仅 依靠 技术 是 不 够 的 ， 纯 技术 代 蔡 不 了 法 律 和 社 
会 道德 对 侵害 隐私 的 制裁 和 约束 。 美 国 和 欧盟 相继 倾 友 了 隐私 法 案 ， 来 规范 个 人 数据 在 收集 、 使 用 与 传播 等 方面 的 行为 ，2013 
年 6 月 ， 中 华人 民 共 和 国 工业 和 信息 化 部 发 布 了 《电信 和 互联 网 用 户 个 人 信息 保护 规定 》， 该 规定 为 互联 网 个 人 信息 的 收集 、 使 
用 提供 了 安全 与 法 律 法 规 保障 。 由 此 看 来 ， 在 大 数据 隐私 管理 过 程 中 ， 政 府 应 制定 、 改 进 和 完善 相应 的 隐私 权 法 案 ， 从 法 律 法 规 
角度 为 用 户 提 供 强 大 的 隐私 保护 屏障 。 


[1] Abbe E A, Khandani A E, Lo AW. Privacy-preserving Methods for Sharing Financial Risk Exposures [J . The Ametican Economic 
Review, 2012, 102 (3) : 65-70. 
[2] Feigenbaum J, Jaggard A D, Wright R N. Towards A Formal Model of Accountability [C] . Proceedings of the2011workshop on 


New secutity patadigms wotkshop (NSPW) . New York: ACM, 2011: 45-56. 


5.5 小 结 


大 数据 在 当前 |T 业 发 展 十 分 迅速 ， 具 有 广阔 的 前 景 ， 但 同时 其 所 面临 的 隐私 挑战 和 风险 也 空前 的 ， 需 要 隐私 保护 研究 者 共同 
探求 管理 之 道 。 大 数据 隐私 管理 不 仅仅 是 技术 方面 的 问题 ， 它 还 涉及 法 律 法 规 、 监 管 模式 和 宗教 等 诸多 方面 。 因 此 ， 仪 从 技术 层 
面 探讨 大 数据 隐私 管理 问题 是 远 远 不 够 的 ， 需 要 学 术 界 、 企 业界 以 及 政府 相关 部 门 共同 努力 才能 实现 。 


第 6 章 ” 大 数据 管理 系统 


6.1 引言 


面 对 不 断 涌现 的 大 数据 应 用 ， 数 据 库 乃至 数据 管理 技术 面临 新 的 挑战 。 传 统 的 数据 管理 技术 侧重 考虑 数据 的 “深度 ”问题 ， 
主要 解决 数据 的 组 织 、 存 储 、 查 询 和 简单 分 析 等 。 其 后 ， 数 气管 理 技术 在 一 定 程度 上 考虑 了 数据 的 “广度 ”和 “密度 ”问题 ， 主 
要 解决 数据 的 集成 、 流 处 理 、 图 结构 等 。 因 此 ， 与 传统 数据 管理 技术 相 比 ， 大 数据 管理 技术 难度 更 高 ， 处 理 数 据 的 “战线 ”更 
长 。 为 了 解决 上 述 问题 需要 从 底层 改变 数据 的 管理 方式 ， 分 布 式 技术 应 运 而 生 ， 给 大 规模 数据 管理 带 来 了 一 剂 恨 方 ， 并 形成 了 一 
套 完整 的 体系 。 云 计算 技术 为 大 数据 管理 提供 了 基础 平台 和 底层 资源 管理 策略 ， 因 批 处 理 和 流 处 理 计算 模型 而 诞生 的 相关 系统 为 
大 数据 管理 提供 了 计算 框架 ，NoSQL 等 系统 为 大 数据 管理 提供 了 多 种 多 样 的 数据 模型 ， 而 非 仅 局 限于 关系 模型 。 


大 数据 管理 系统 正 是 基于 上 述 新 挑战 ， 着 重 解决 大 数据 管理 从 底层 到 高 层 所 面临 的 一 切 问 题 。 本 章 涉 及 的 大 数据 管理 系统 可 
以 按照 所 处 体系 结构 的 层次 不 同 进行 如 表 6-1 所 示 的 简单 分 类 。 


表 6-1 大 数据 管理 系统 分 类 


代表 性 系统 
OpenStack 、Docker 、CloudStack 


Hadoop、Spark、S4、Storm、Puma、 










批 数 据 与 流 数据 管理 系统 







Samza 
Oracle、 MySQL、SQL Server 、MongoDB 、 
HBase、Cassandra 、Redlis 、Spanner、Ocean- 


SQL 、NoSQL NewSQL 类 系统 
a Q SPE [hase RDS. Ciyidl SQ, Aite. RDS. 


BigTable、DynamoDB、SimpleDB 


本 章 主要 从 大 数据 管理 系统 特点 的 角度 ， 将 大 数据 管理 系统 分 为 基础 架构 、 计 算 模型 以 及 管理 系统 三 个 侧重 点 加 以 介绍 。 
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6.1 引言 


面 对 不 断 涌现 的 大 数据 应 用 ， 数 据 库 乃至 数据 管理 技术 面临 新 的 挑战 。 传 统 的 数据 管理 技术 侧重 考虑 数据 的 “深度 ”问题 ， 
主要 解决 数据 的 组 织 、 存 储 、 查 询 和 简单 分 析 等 。 其 后 ， 数 据 管 理 技术 在 一 定 程度 上 考虑 了 数据 的 “广度 ”和 “密度 ”问题 ， 主 
要 解决 数据 的 集成 、 流 处 理 、 图 结构 等 。 因 此 ， 与 传统 数据 管理 技术 相 比 ， 大 数据 管理 技术 难度 更 高 ， 处 理 数 据 的 “战线 ”更 
长 。 为 了 解决 上 述 问题 需要 从 底层 改变 数据 的 管理 方式 ， 分 布 式 技术 应 运 而 生 ， 给 大 规模 数据 管理 带 来 了 一 剂 良 方 ， 并 形成 了 一 
套 完 整 的 体系 。 云 计算 技术 为 大 数据 管理 提供 了 基础 平台 和 底层 资源 管理 策略 ， 因 批 处 理 和 流 处 理 计算 模型 而 诞生 的 相关 系统 为 
大 数据 管理 提供 了 计算 框架 ，NoSQL 等 系统 为 大 数据 管理 提供 了 多 种 多 样 的 数据 模型 ， 而 非 仅 局 限于 关系 模型 。 


大 数据 管理 系统 正 是 基于 上 述 新 挑战 ， 着 重 解决 大 数据 管理 从 底层 到 高 层 所 面临 的 一 切 问 题 。 本 章 涉及 的 大 数据 管理 系统 可 
以 按照 所 处 体系 结构 的 层次 不 同 进行 如 表 6-1 所 示 的 简单 分 类 。 


表 6-1 大 数据 管理 系统 分 类 


系统 类 型 代表 性 系统 层次 
云 计 算 平 台 OpenStack 、Docker 、CloudStack 底层 ， 资 源 管理 
Hadoop、Spark、S4、Storm、Puma、 


Samza 


Oracle、 MySQL、SQL Server 、MongoDB 、 
HBase、Cassandra 、Redis 、Spanner、Ocean- 
Base、RDS 、Cloud SQL 、Azure、RDS 、 
BigTable、DynamoDB、SimpleDB 


高 层 ， 数 据 模 型 





本 章 主 要 从 大 数据 管理 系统 特点 的 角度 ， 将 大 数据 管理 系统 分 为 基础 架构 、 计 算 模型 以 及 管理 系统 三 个 侧重 点 加 以 介绍 。 


6.2 云 计算 : 大 数据 的 基础 平台 与 支撑 技术 


如 果 将 各 种 大 数据 的 应 用 比 作 一 辆 辆 “汽车 ”， 那 么 支撑 起 这 些 “ 汽 车 ”运行 的 “高 速 公路 ”就 是 云 计算 。 正 是 云 计 算 技术 
在 数据 存储 、 管 理 与 分 析 等 方面 的 支撑 ， 才 使 得 大 数据 有 用 武之 地 。 


在 所 有 的 “高 速 公 路 ”中 ，Google 公 司 无 疑 是 技术 最 为 先进 的 一 个 。 需 求 推动 创新 ， 面 对 海量 的 Web 数 据 ，Google 公 司 
于 2006 年 首先 提出 了 “ 云 计算 ”概念 。 支 撑 Google 公 司 内 部 各 种 大 数据 应 用 的 正 是 其 自行 研发 的 一 系列 云 计算 技术 和 工具 。 难 
能 可 贵 的 是 Google 公 司 并 未 将 这 些 技术 完全 封闭 ， 而 是 以 论文 的 形式 逐步 公开 其 实现 。 正 是 这 些 公开 的 论文 ， 使 得 以 GFS、 
MapReduce、Bigtable 为 代表 的 一 系列 大 数据 处 理 技术 被 广泛 了 解 并 得 到 应 用 ， 同 时 还 催生 了 以 Hadoop 为 代表 的 一 系列 云 计 
算 开源 工具 。 云 计算 技术 很 多 ， 但 是 Google 对 云 计 算 技术 的 介绍 ， 使 人 们 能 够 快速 、 完 整地 把 握 云 计 算 技术 的 核心 和 精髓 。 根 
据 Google 公 司 已 公开 的 论文 及 相关 资料 ， 结 合 大 数据 处 理 的 需求 ， 我 们 对 Google 公 司 的 技术 演化 进行 了 整理 ， 如 图 6-1 所 示 。 


1) 文件 系统 : 文件 系统 是 支撑 上 层 应 用 的 基础 。 在 Google 之 前 ， 尚 未 有 哪个 公司 面 对 过 如 此 多 的 海量 数据 。 因 此 对 于 
Google 公 司 而 言 并 没有 完全 成 熟 的 存储 方案 可 以 直接 使 用 。Google 公 司 认 为 系统 组 件 失败 是 一 种 常态 而 不 是 异常 ， 基 于 此 思想 
Google 公 司 自行 设计 开发 了 Google 文 件 系统 (Google File System，GFS) 。GFS 是 构建 在 大 量 廉价 服务 器 之 上 的 一 个 可 扩展 
的 分 布 式 文件 系统 ，GFS 主 要 针对 文件 较 大 ， 且 “ 读 ” 远 大 于 “ 写 ” 的 应 用 场景 ， 采 用 主 从 (master-slave) 结构 。 通 过 数据 分 
块 、 追 加 更 新 (append-only) 等 方式 实现 了 海量 数据 的 高 效 存储 。 随 着 时 间 推 移 ，GFS 的 架构 逐渐 开始 无 法 适应 需求 。 
Google 公 司 对 GFS 进 行 了 重新 设计 ， 该 系统 正式 的 名 称 为 Colossus， 具 体 实现 尚未 公开 ， 但 是 从 ACM 对 GFS 团 队 核心 工程 师 的 
访谈 可 以 了 解 其 一 些 新 的 特性 。 其 中 GFS 的 单 点 故障 ( 指 仅 有 一 个 主 节 点 容易 成 为 系统 的 瓶颈 ) 、 海 量 小 文件 的 存储 等 问题 在 
Colossus 中 均 得 到 了 解决 。 
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图 6-1 Google 公 司 技 术 演化 图 


2) 数据 库 系统 : 原始 的 数据 存储 在 文件 系统 之 中 ， 但 是 用 户 习 惯 通过 数据 库 系统 来 存 取 文件 。 因 为 这 样 会 屏 菩 底层 的 细 
节 ， 有 目 方便 管理 数据 。 传 统 的 数据 库 技术 不 适合 大 数据 时 代 ， 因 为 传统 的 数据 库 产品 对 于 性 能 的 扩展 更 倾向 于 Scale-Up (纵向 
扩展 ) 的 方式 ， 而 这 种 方式 对 于 性 能 的 增加 速度 远 低 于 需要 处 理 数 据 的 增长 速度 ， 且 性 能 提升 存在 上 限 。 适 应 大 数据 的 数据 库 系 
统 应 当 具 有 良好 的 Scale-Out (横向 扩展 ) 能 力 ， 而 这 种 性 能 扩展 的 方式 恰恰 是 传统 数据 库 所 不 具备 的 。Bigtable 是 Google 早 期 
开发 的 数据 库 系统 ， 它 是 一 个 多 维 稀疏 排序 表 ， 由 行 和 列 组 成 ， 每 个 存储 单元 都 有 一 个 时 间 戳 ， 形 成 三 维 结构 。 不 同 的 时 间 对 同 
一 个 数据 单元 的 多 个 操作 形成 的 数据 的 多 个 版 本 之 间 由 时 间 惟 来 区 分 。Bigtable 的 模型 简单 ， 但 是 相 较 传统 的 关系 数据 库 其 支持 
的 功能 非常 有 限 ， 不 支持 ACID 特性 。 因 此 Google 开 发 了 Megastore 系 统 ， 昌 然 其 底层 数据 存储 依赖 Bigtable， 但 是 它 实 现 了 类 
似 RDBMSs 的 数据 模型 ， 同 时 提供 数据 的 强 一 致 性 解决 方案 。Megastore 将 数据 进行 细 粒 度 的 分 区 ， 数 据 更 新 会 在 机 房间 进行 同 
步 复 制 。 目 前 Google 正 在 使 用 的 数据 库 系统 是 Spanner 架 构 ，Google 在 OSDI2012 上 公开 了 Spanner 的 实现 。Spanner 是 第 一 
个 可 以 实现 全 球 规模 扩展 (Global Scale) ， 并 且 支 持 外 部 一 致 的 事务 的 数据 库 。 通 过 GPS 和 原子 时 钟 (atomic clocks) 技 
术 ，Spanner 实 现 了 一 个 时 间 API。 借 助 该 AP1， 数 据 中 心 之 间 的 时 间 同 步 能 够 精确 到 10ms 以 内 。sSpanner 类 似 于 Bigtable， 但 
是 它 具 有 层次 性 的 目录 结构 以 及 细 粒 度 的 数据 复制 。 对 于 数据 中 心 之 间 ， 不 同 的 操作 会 分 别 支 持 强 一 致 性 或 弱 一 致 性 ， 且 支持 更 
多 的 自动 操作 。Spanner 的 目标 是 控制 一 百 万 到 一 干 万 台 服 务 器 ， 最 多 包含 大 约 10 万 亿 目 录 和 一 干 万 亿 字 节 的 存储 空间 。 另 外 
在 SIGMOD2012 上 ，Google 公 开 了 用 于 其 广告 系统 的 新 数据 库 产品 F1， 作 为 一 种 混合 型 数据 库 F1 融 合 Bigtable 的 高 扩展 性 以 及 
SQL 数据 库 的 可 用 性 和 功能 性 。 该 产品 的 底层 存储 正 是 采用 Spanner， 具 有 很 多 新 的 特性 ， 包 括 全 局 分 布 式 、 同 步 跨 数 据 中 心 复 
制 、 可 视 分 片 和 数据 移动 、 常 规 事务 等 。 


3) 分 析 系 统 : 数据 分 析 是 Google 最 核心 的 业务 ， 每 一 次 简单 的 网 络 点 击 背后 都 需要 进行 复杂 的 分 析 过 程 ， 因 此 Google 对 
其 分 析 系 统 进 行 不 断 的 升级 改造 。MapReduce 是 Google 最 早 采用 的 计算 模型 ， 适 用 于 批 处 理 ， 其 具体 内 容 已 在 前 面 介绍 过 
“图 ”是 真实 社会 中 广泛 存在 的 事物 之 间 联 系 的 一 种 有 效 表示 手段 ， 因 此 对 图 的 计算 是 一 种 常见 的 计算 模式 ， 而 图 计算 会 涉及 在 
相同 数据 上 的 不 断 更 新 以 及 大 量 的 消息 传递 ， 如 果 采 用 MapReduce 实 现 会 产生 大 量 不 必要 的 序列 化 和 反 序 列 化 开销 。 现 有 的 图 
计算 系统 并 不 适用 于 Google 的 应 用 场景 ， 因 此 Google 设 计 并 实现 了 Pregel 图 计算 模型 。Pregel 是 Google 继 MapReduce 之 后 提 
出 的 又 一 个 计算 模型 ， 与 MapReduce 的 离线 批 处 理 模 式 不 同 ， 它 主要 用 于 图 的 计算 。 该 模型 的 核心 思想 源 于 著名 的 BSP 计 算 模 


型 。Dremel 是 Google 提 出 的 一 个 适用 于 Web 数 据 级 别 的 交互 式 数据 分 析 系 统 ， 通 过 结合 列 存 储 和 多 层次 的 查询 树 ，Dremel 能 
够 实现 极 短 时 间 内 的 海量 数据 分 析 。Dremel 支 持 着 Google 内 部 的 一 些 重要 服务 ， 比 如 Google 的 云端 大 数据 分 析 平 台 Big 
Query。Google 在 VLDB2012 发 表 的 文章 中 介绍 了 一 个 内 部 名 称 为 PowerDrill 的 分 析 工 具 ，PowerDrill 同 样 采 用 了 列 存储 ， 且 使 
用 了 压缩 技术 将 尽 可 能 多 的 数据 装载 进 内 存 。PowerDrill 与 Dremel 均 是 Google 的 大 数据 分 析 工 具 ， 但 是 其 关注 的 应 用 场景 不 
同 ， 实 现 技术 也 有 很 大 差异 。Dremel 主 要 用 于 多 数据 集 的 分 析 ， 而 PowerDril 则 主要 应 用 于 大 数据 量 的 核心 数据 集 分 析 ， 数 据 
集 的 种 类 相 较 于 Dremel 的 应 用 场景 会 少 很 多 。 由 于 PowerDrill 是 设计 用 来 处 理 少量 核心 数据 集 ， 因 此 对 数据 处 理 速 度 要 求 极 
高 ， 所 以 其 数据 应 当 尽 可 能 的 驻 留 在 内 存 ， 而 Dremel 的 数据 则 存储 在 磁盘 中 。 除 此 之 外 ，PowerDrill 与 Dremel 在 数据 模型 、 数 
据 分 区 等 方面 都 有 了 明显 的 差别 。 从 实际 的 执行 效率 来 看 ，Dremel 可 以 在 几 秒 内 处 理 PB 级 的 数据 查询 ， 而 PowerDrill 则 可 以 在 30 
至 40 秒 内 处 理 7820 亿 个 单元 格 的 数据 ， 处 理 速度 快 于 Dremel。 二 者 的 应 用 场景 不 同 ， 可 以 相互 补充 。 


4) 索引 系统 : 索引 的 构建 是 提供 搜索 服务 的 关键 部 分 。Google 公 司 最 早 的 索引 系统 是 利用 MapReduce 来 更 新 的 。 根 据 更 
新 频率 进行 层次 划分 ， 不 同 的 层次 对 应 不 同 的 更 新 频率 。 每 次 需要 批量 更 新 索引 ， 即 使 有 些 数 据 并 未 改变 也 需要 处 理 掉 。 这 种 索 
引 更 新 方式 效率 较 低 。 随 后 Google 提 出 了 Percolator， 这 是 一 种 增 量 式 的 索引 更 新 器 ， 每 次 更 新 不 需要 替换 所 有 的 索引 数据 ， 
效率 大 大 提高 。 虽 然 不 是 所 有 的 大 数据 应 用 都 需要 索引 ， 但 是 这 种 增 量 计算 的 思想 非常 值得 我 们 借鉴 。 目 前 Google 所 采用 的 索 
引 系 统 为 Caffeine， 其 具体 实现 尚未 公布 。 但 是 可 以 确定 Caffeine 是 构建 在 Spanner 之 上 的 ,采用 Percolator 更 新 索引 ， 效 率 相 
较 上 一 代 索 引 系统 而 言 有 大 幅度 提高 。 


除了 Google， 众 多 企业 和 学 者 也 从 不 同 角度 对 大 数据 进行 了 详尽 的 研究 。 在 文件 系统 方面 ， 微 软 自 行 开 发 的 Cosmos 支 撑 
着 其 搜索 、 广 告 等 业务 。Hadoop 的 HDFS 和 CloudStore 都 是 模仿 GFS 的 开源 实现 。GFS 类 的 文件 系统 主要 是 针对 较 大 文件 设计 
的 ,而 在 图 片 存储 等 应 用 场景 ， 文 件 系 统 主要 存储 海量 小 文件 ， 此 时 GFS 等 文件 系统 因为 频繁 读 取 元 数据 等 原因 ， 效 率 很 低 。 针 
对 这 种 情况 ，Facebook 推 出 了 专门 针对 海量 小 文件 的 文件 系统 Haystack， 通 过 多 个 逻辑 文件 共享 同一 个 物理 文件 、 增 加 缓存 
层 、 部 分 元 数据 加 载 到 内 存 等 方式 有 效 地 解决 了 Facebook 海 量 图 片 存储 问题 。 淘 宝 推出 了 类 似 的 文件 系统 TFS (Tao File 
System) ， 通 过 将 小 文件 合并 成 大 文件 、 文 件 名 隐 合 部 分 元 数据 等 方式 实现 了 海量 小 文件 的 高 效 存储 。FastDFS 针 对 小 文件 的 
优化 类 似 于 TFS。 


在 数据 库 方面 ， 除 了 Bigtable，Amazon 的 Dynamo 和 Yahoo 的 PNUTS 也 都 是 非常 具有 代表 性 的 系统 。Dynamo 综 合 使 用 
了 键 / 值 存储 、 改 进 的 分 布 式 散 列表 (DHT) 、 向 量 时 钟 (vector clock) 等 技术 实现 了 一 个 完全 的 分 布 式 、 去 中 心 化 的 高 可 用 
系统 。PNUTS 是 一 个 分 布 式 数据 库 ， 在 设计 上 使 用 弱 一 致 性 来 达到 高 可 用 性 的 目标 ， 主 要 的 服务 对 象 是 相对 较 小 的 记录 ， 比 如 
在 线 的 大 量 单 记 录 或 者 小 范围 记录 集合 的 读 和 写 访问 ， 不 适合 存储 大 文件 、 流 媒体 等 。Bigtable、Dynamo、PNUTS 等 的 成 功 
促使 人 们 开始 对 关系 数据 库 进 行 反 思 ， 由 此 产生 了 一 批 现 在 统一 称 为 NoSQL 的 数据 库 ， 有 关 NoSQL 数 据 库 的 内 容 将 在 后 面 介 
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在 数据 分 析 方面 ， 微 软 公 司 提出 了 一 个 类 似 MapReduce 的 数据 处 理 模 型 ， 称 为 Dryad。Dryad 模 型 主要 用 来 构建 支持 有 向 
无 环 图 (Directed Acycline Graph，DAG) 类 型 数据 流 的 并 行程 序 。Cascading 通 过 对 Hadoop MapReduce API 的 封装 ， 支 
持 有 向 无 环 图 类 型 的 应 用 。Sector/Sphere 可 以 视 为 一 种 流 式 的 MapReduce， 它 由 分 布 式 文件 系统 Sector 和 并 行 计算 框架 
Sphere 组 成 。Nephele/PACTs 包 括 PACTs (Parallelization Contracts) 编程 模型 和 并 行 计算 引擎 Nephele。 目 前 MapReduce 
模型 基本 成 为 批 处 理 类 应 用 的 标准 处 理 模 型 ， 很 多 应 用 开始 尝试 利用 MapReduce 加 速 其 数据 处 理 。 


6.3” 批 数据 与 流 数据 管理 系统 


批 数 据 和 流 数 据 是 两 种 重要 的 数据 类 型 ， 批 数据 为 离线 数据 ， 是 以 静态 的 方式 存储 在 稳定 存储 上 的 一 类 数据 ， 对 批 数 据 的 处 


理 称 为 批 处 理 ， 而 对 批 数据 的 管理 称 为 批 数据 管理 系统 。 流 处 理 的 基本 理念 是 数据 的 价值 会 随 着 时 间 的 流逝 而 不 断 减少 ， 因 此 尽 
可 能 快 地 对 最 新 的 数据 做 出 分 析 并 给 出 结果 是 所 有 流 数 据 处 理 模式 的 共同 目标 。 


(1) 批 数据 管理 系统 


对 批 数据 的 处 理 重 在 由 系统 自动 处 理 ， 不 需 过 度 交 互 ， 且 能 够 提高 CPU 的 利用 率 。 随 着 大 数据 的 产生 批 数据 越 来 越 庞大 ， 
如 系统 日 志 数 据 、 数 据 仓 库 内 的 历史 数据 等 都 为 典型 的 批 数据 ， 这 些 数据 已 经 无 法 人 存储 在 一 台 机 器 上 ， 即 便 能 够 存储 ， 其 计算 时 
间 也 是 无 法 容忍 的 ， 因 此 分 布 式 批 数据 管理 系统 应 运 而 生 。 批 数据 管理 系统 要 解决 的 问题 是 分 布 式 存储 与 分 布 式 计算 问题 ， 并 且 
需要 尽量 保证 数据 的 本 地 性 以 减少 网 络 开销 。 


目前 较为 流行 的 分 布 式 计算 思路 为 “计算 向 数据 移动 ”的 理念 。 在 传统 计算 机 体系 结构 中 ,以 CPU 为 中 心 负 责 计算 ,数据 
需要 从 硬盘 移动 到 内 存 ， 再 从 内 存 移 动 到 各 级 缓存 ， 最 终 由 缓存 移动 到 寄存 器 参与 计算 。 数 据 移动 的 代价 往往 高 于 计算 代价 。 在 
分 布 式 计算 中 也 是 如 此 ， 如 果 输 入 数据 在 网 络 中 相互 传输 会 导致 不 必要 的 开销 ， 而 程序 在 网 络 中 的 传输 代价 要 小 得 多 ， 这 就 是 所 
谓 的 “让 计算 靠近 数据 ”。 


(2) 流 数 据 管理 模式 
需要 采用 流 数 据 处 理 的 大 数据 应 用 场景 主要 有 网 页 点 击 数 的 实时 统计 、 传 感 器 网 络 、 金 融 中 的 高 频 交易 等 。 
流 处 理 的 处 理 模 式 将 数据 视 为 流 ， 源 源 不 断 的 数据 组 成 了 数据 流 。 当 新 的 数据 到 来 时 就 立刻 处 理 并 返回 所 需 的 结果 。 


数据 的 实时 处 理 是 一 个 极 具 挑战 性 的 工作 ， 数 据 流 本 身 具 有 持续 达到 、 速 度 快 且 规模 巨大 等 特点 ， 因 此 通常 不 会 对 所 有 数据 
进行 永久 化 存储 ， 而 且 数 据 环 境 处 在 不 断 的 变化 之 中 ， 系 统 很 难 准 确 掌握 整个 数据 的 全 有 狐 。 由 于 响应 时 间 的 要 求 ， 流 处 理 的 过 程 
基本 在 内 存 中 完成 ， 其 处 理 方式 更 多 依赖 于 在 内 存 中 设计 巧妙 的 概要 数据 结构 (synopsis data structure) ， 内 存 容量 是 限制 流 
处 理 模 型 的 一 个 主要 瓶颈 。 以 PCM ( 相 变 存储 器 ) 为 代表 的 存储 级 内 存 (Storage Class Memory，SCM) 设备 的 出 现 或 许可 
以 使 内 存在 未 来 不 再 成 为 流 处 理 模型 的 制约 。 


(3) 混合 处 理 模式 


混合 计算 模式 可 体现 在 两 个 层面 : 一 是 传统 并 行 计 算 所 关注 的 体系 结构 与 底层 并 行程 序 设计 语言 层面 计算 模式 的 混合 。 例 
如 ， 在 体系 结构 层 ， 可 根据 大 数据 应 用 问题 的 需要 措 建 混合 式 系统 架构 ， 如 MapReduce 集 群 +GPU 的 混合 ， 或 者 MapReduce 
集群 + 众 核 协 处 理 系 统 的 OpenMP/MPI 的 混合 模型 。 


混合 模式 的 男 一 个 层面 是 大 数据 处 理 高 层 计 算 模式 的 混合 。 例 如 ， 一 个 大 数据 应 用 可 能 需要 提供 流 式 计算 模式 以 便 接收 和 处 
理 大 量 流 式 数据 ;可 能 还 需要 提供 基于 SQL 或 NoSQL 的 数据 查询 分 析 能 力 以 便 进行 日 常 的 数据 查询 分 析 ; 并 且 可 能 需要 提供 线 
下 批 处 理 和 和 迭代 计算 以 完成 机 器 学 习 的 深度 数据 挖掘 分 析 ; 一 些 大 数据 计算 任务 可 能 还 涉及 复杂 图 计算 或 间接 转化 为 图 计算 问题 
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因此 ,很 多 大 数据 处 理 问题 将 需要 混合 使 用 多 种 计算 模式 。 此 外 ， 为 了 提高 计算 性 能 ,各 种 计算 模式 还 可 以 与 内 存 计算 模式 
混合 ， 实 现 高 实时 性 的 大 数据 查询 和 计算 分 析 。 混 合计 算 模式 将 成 为 满足 多 样 性 大 数据 处 理 和 应 用 需求 的 有 效 手 段 。 





6.3.1 ” 批 数据 管理 系统 


Apache Hadoop 是 较为 成 功 的 批 数据 管理 系统 之 一 ， 目 前 由 三 部 分 组 成 : MapReduce 负 责 计算 ; HDFS 是 一 个 分 布 式 文件 
系统 ， 负 责 存储 数据 ; YARN 为 统一 资源 调度 器 ， 负 责 管理 计算 资源 ， 如 CPU 和 内 存 等 。 它 主要 有 以 下 几 个 优点 : @ 高 可 靠 


性 ，Hadoop 具 有 按 位 存储 和 处 理 数据 的 能 力 ; @ 高 扩展 性 ，Hadoop 是 在 可 用 的 计算 机 集群 间 分 配 数据 并 完成 计算 任务 的 ， 这 
些 集群 可 以 方便 地 扩展 到 数 以 干 计 的 节点 中 ; @@ 高 效 性 ，Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 节点 的 动态 平 
衡 ; @ 高 容错 性 ，Hadoop 能 够 自动 保存 数据 的 多 个 副本 ， 并 且 能 够 自动 将 失败 的 任务 重新 分 配 ;，@@ 低 成 本 ,与 一 体 机 、 商 用 数 
据 仓 库 相 比 ，Hadoop 是 开源 的 ， 项 目的 软件 成 本 因此 会 大 大 降低 。 


Google 公 司 在 2004 年 提出 的 MapReduce 编 程 模型 由 是 最 具 代 表 性 的 批 处 理 模式 ， 一 个 完整 的 MapReduce 过 程 如 1.4.2 节 
所 述 。 


HDFs 提 供 了 一 个 高 度 容错 性 和 高 吞吐 量 的 海量 数据 存储 解决 方案 ， 且 已 经 在 各 种 大 型 在 线 服 务 和 大 型 存储 系统 中 得 到 广泛 
应 用 ， 已 经 成 为 各 大 网 站 等 在 线 服 务 公司 的 海量 存储 事实 标准 。 


HDFs 将 数据 分 块 存 储 在 不 同 节点 上 ， 默 认 每 块 64MB， 且 每 个 数据 块 在 不 同 节点 上 默认 都 有 3 个 宛 余 备 份 。 在 用 户 访问 
时 ，HDFS 会 通过 计算 将 离 用 户 网 络 最 近 和 访问 量 最 小 的 服务 器 分 配给 用 户 提供 访问 。 由 于 数据 块 的 每 个 复制 都 能 提供 给 用 户 访 
间 ， 而 不 是 从 单数 据 源 读 取 ，HDFS 对 于 单数 据 块 的 访问 速度 将 是 传统 存储 方案 的 数 倍 。 对 于 一 个 较 大 的 文件 ，HDFS 将 文件 的 
不 同 部 分 存放 于 不 同 节 点 之 上 。 在 访问 文件 时 ， 系 统 可 以 并 行 从 服务 器 阵列 中 的 多 个 服务 器 并 行 读 入 ， 增 加 了 大 文件 读 入 的 访问 
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YARN 的 目标 是 将 资源 管理 和 处 理 组 件 分 开 ， 它 负责 的 就 是 资源 管理 部 分 。 在 YARN 架 构 中 ， 一 个 全 局 ResourceManager 
通常 以 主要 后 台 进 程 的 形式 运行 在 专用 机 器 上 ， 在 各 种 竞争 的 应 用 程序 之 间 仲 裁 可 用 的 集群 资源 。ResourceManager 会 追踪 集 
群 中 可 用 的 活动 节点 和 资源 ， 协 调用 户 提交 的 应 用 程序 应 获取 的 资源 。ResourceManager 是 唯一 拥有 此 信息 的 进程 ， 所 以 它 可 
通过 某 种 共享 的 、 安 全 的 、 多 租户 的 方式 制定 分 配 (或 者 调度 ) 决策 。 


在 用 户 提 交 一 个 应 用 程序 时 ， 一 个 称 为 ApplicationMaster 的 进程 实例 会 启动 以 协调 应 用 程序 内 所 有 任务 的 执行 ， 包 括 监视 
任务 、 重 新 启动 失败 的 任务 、 推 测 性 地 运行 缓慢 的 任务 ， 以 及 计算 应 用 程序 计数 器 值 的 总 和 。ApplicationMaster 和 属于 它 的 应 
用 程序 的 任务 ， 在 受 NodeManager 控 制 的 资源 容器 中 运行 。 


NodeManager 拥 有 许多 动态 创建 的 资源 容器 。 容 器 的 大 小 取决 于 它 所 包含 的 资源 量 ， 比 如 内 存 、CPU、 磁 盘 和 网 络 /O。 
目前 ， 其 仅 支 持 内 存 和 CPU (YARN-3) 。 未 来 可 使 用 cgroups 来 控制 磁盘 和 网 络 VO。 一 个 节点 上 的 容器 数量 ， 由 配置 参数 与 
专用 于 从 属 后 台 进 程 和 操作 系统 的 资源 以 外 的 节点 资源 总 量 (比如 CPU 总 数 和 总 内 存 ) 共同 决定 。 


[1] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clustets [J| . Communications of the 
ACM, 2008, 51 (1) : 107-113. 


6.3.2” 流 数据 管理 系统 


近年 来 各 行业 信息 化 程度 明显 加 快 ， 由 此 产生 的 数据 量 也 呈 爆 发 式 增长 。 在 金融 应 用 、 网 络 监视 、 社 交 网 络 等 行业 领域 产生 
了 一 类 到 达 速 度 快 、 数 据 规模 大 的 数据 。 这 类 数据 的 特点 可 以 总 结 为 : @ 数 据 实 时 到 达 ， 到 达 速 度 较 快 ; @ 数 据 到 达 次 序 独 立 ; 
@ 数 据 规模 庞大 ， 无 法 预知 数据 的 大 小 ，@ 数 据 一 经 处 理 ， 除 非 进行 存储 ， 很 难 再 次 获取 。 我 们 把 具有 以 上 特征 的 一 类 数据 称 为 
流 数据 。 而 Apache Storm 是 管理 这 类 数据 的 典型 系统 之 一 。 


storm 是 由 Twitter 在 2011 年 开源 的 分 布 式 流 数据 处 理 系统 。 平 台 采 取 弱 中 心 化 结构 ， 中 心 节 点 通过 Zookeeper 分 配 任务 。 
Storm 把 数据 处 理 过 程 抽象 为 一 个 拓扑 结构 ， 把 数据 流 抽象 为 stream。 通 过 Spout 从 数据 源 为 拓扑 结构 提供 数据 流 ， 由 Bolt 进 行 
数据 处 理 ， 并 在 必要 时 产生 新 的 数据 流 并 交 由 下 一 层 Bolt 继 续 完 成 处 理 过 程 。 与 4 不同 ，Storm 自 身 提供 消息 处 理 反 馈 机 制 ， 且 
能 够 保障 精确 处 理 一 次 语义 。 但 该 平台 在 故障 恢复 、 系 统 共存 性 和 启用 Trident 后 的 并 行 度 方面 还 存在 一 些 问 题 。 


在 storm 中 ， 认 为 stream 是 一 个 不 间断 的 、 无 界 的 连续 元 组 。storm 认 为 每 个 stream 都 有 一 个 stream 源 ， 也 就 是 原始 元 组 
的 源头 ， 所 以 它 将 这 个 源头 抽象 为 spout，spout 可 能 连接 Twitter API 并 不 断 发 出 tweets， 也 可 能 从 某 个 队列 中 不 断 读 取 队 列 元 
素 并 装配 为 元 组 发 射 。 


Twitter 采用 同样 的 思路 将 流 的 中 间 状 态 转换 抽象 为 Bolt，Bolt 可 以 消费 任意 数量 的 输入 流 ， 只 要 将 Stream 导 向 该 Bolt， 同 
时 它 也 可 以 发 送 新 的 流 给 其 他 Bolt 使 用 ， 即 ， 工 作 流 程 是 ， 打 开 特 定 的 Spout， 表 将 Spout 中 流出 的 元 组 导向 特定 的 Bolt， 由 
Bolt 对 导入 的 流 进行 处 理 后 再 导向 其 他 Bolt 或 者 目的 地 。 整 个 流程 如 图 6-2 所 示 。 





Spout 


这 是 一 张 有 向 无 环 图 ，Storm 将 这 个 图 抽象 为 拓扑 ， 拓 扑 是 Storm 中 最 高 层次 的 一 个 抽象 概念 ， 它 可 以 被 提交 到 Storm 集 群 
执行 。 一 个 拓扑 就 是 一 个 流转 换 图 ， 图 中 每 个 节点 是 一 个 Spout 或 者 Bolt， 图 中 的 边 表示 Bolt 订 阅 的 流 ， 当 Spout 或 者 Bolt 发 送 
元 组 到 流 时 ， 就 相当 于 发 送 元 组 到 每 个 订阅 了 该 流 的 Bolt。 


图 6-2 ” Storm 流程 图 


6.4 SQL、NoSQL 与 NewSQL 系 统 


SQL 系统 是 使 用 结构 化 查询 语言 (SQL) 的 关系 型 数据 库 。 该 类 系统 的 关键 部 分 是 SQL， 该 语言 是 经 过 时 间 考 验 的 ， 目 前 大 
数据 公司 和 组 织 (如 Google、Facebook、Cloudera 和 Apache) 正在 积极 投资 于 SQL。SQL 的 独特 优势 包括 : @SQL 是 标准 化 


的 ， 使 用 户 能 够 跨 系统 运行 ， 并 对 第 三 方 附件 和 工具 提供 支持 。@SQL 能 够 扩展 ， 并 且 是 多 功能 的 ， 因 此 能 够 很 好 地 支持 从 以 写 
为 主导 的 传输 到 扫描 密集 型 分 析 应 用 。@SQL 对 数据 的 呈现 和 存储 采用 正 交 形式 。 因 此 ， 传 统 的 关系 型 数据 库 的 流行 是 因 SQL 的 
流行 ， 它 在 2016 年 的 市 场 份额 已 经 接近 410 亿 美元 ， 能 保证 每 日 处 理 百 万 级 别 的 网 页 请 求 数据 [1]。 虽 然 传统 的 关系 型 数据 库 能 
完美 地 适应 众多 应 用 场景 ， 但 是 却 无 法 适应 大 数据 类 型 的 当代 应 用 ， 如 社会 网 络 要 求 近乎 实时 地 处 理 百 万 次 级 别 的 读 请 求 和 十 亿 
次 级 别 的 写 请 求 。 换 句 话说 ， 现 有 需求 要 求 数据 管理 系统 有 至 少 每 秒 进行 十 亿 次 级 别 的 处 理 能 力 。 因 此 ， 大 数据 的 需求 是 新 型 数 
据 管理 系统 设计 的 动力 来 源 。 


为 了 给 这 些 大 数据 应 用 提供 数据 服务 ， 数 据 库 技术 已 经 开始 逐步 摆脱 之 前 关系 型 数据 模型 ， 朝 着 更 为 多 元 化 的 方向 发 展 。 分 
布 式 关系 型 数据 库 ， 如 NoSQL、NewSQL 都 已 经 占有 各 自 的 市 场 ， 在 这 基础 之 上 的 云端 服务 咎 又 在 弱化 其 中 的 差异 。 





NoSQL 的 说 法 目前 比较 含糊 ， 一 种 对 NoSQL 的 定义 是 : 提供 简单 操作 (如 密 钥 /数值 存储 ) 或 简单 记录 和 索引 ， 并 专注 于 
这 些 简单 操作 的 横向 可 扩展 性 的 系统 。NoSQL 的 主要 特点 是 更 适合 于 特定 的 问题。 例如 ， 图 形 数据 库 更 适合 于 数据 通过 关系 组 
织 的 情况 ， 而 专门 的 文本 搜索 系统 更 适合 于 需要 实时 搜索 的 情况 。 大 多 数 NoSQL 系 统 或 多 或 少 地 具备 以 下 特点 : 


@ 不 需要 预定 义 模式 。 不 需要 事先 定义 数据 模式 ， 预 定义 表 结构 ， 数 据 中 的 每 条 记录 都 可 能 有 不 同 的 属性 和 格式 。 当 插入 数 
据 时 ， 并 不 需要 预先 定义 它们 的 模式 。@ 无 共享 架构 。 相 对 于 将 所 有 数据 人 存储 在 同一 个 网 络 区 域 的 全 共享 架构 ，NoSQL 往 往 将 
数据 划分 后 存储 在 各 个 本 地 服务 器 上 。 因 为 从 本 地 磁盘 读 取 数据 的 性 能 往往 好 过 通过 网 络 传输 读 取 数 据 的 性 能 ， 从 而 提高 了 系统 
的 性 能 。@ 弹 性 可 扩展 。 可 以 在 系统 运行 的 时 候 ， 动 态 增 加 或 者 删除 节点 。 不 需要 停机 维护 ， 数 据 即 可 自动 迁移 。@ 分 区 。 相 对 
于 将 数据 存放 于 同一 个 节点 ，NoSQL 数 据 库 需要 将 数据 进行 分 区 ， 将 记录 分 散在 多 个 节点 上 。 并 且 通 常 分 区 的 同时 还 要 做 复 
制 ， 这 样 既 提 高 了 并 行 性 能 ， 又 能 保证 没有 单 点 失效 的 问题 。@ 有 异步 复制 。 与 RAID 存 储 系 统 不 同 的 是 ，NoSQL 中 的 复制 往往 是 
基于 日 志 的 异步 复制 。 这 样 ， 数 据 就 可 以 尽快 地 写 入 一 个 节点 ， 避 免 网 络 传输 引起 的 迟延 。 缺 点 是 并 不 总 是 能 保证 一 致 性 ， 这 样 
的 方式 在 出 现 故 障 的 时 候 ， 可 能 会 丢失 少量 的 数据 。@BASE 特 性 。 相 对 于 事务 严格 的 ACID 特 性 ，NoSQL 数 据 库 保证 的 是 BASE 
特性 。 


值得 注意 的 是 ， 为 了 换取 性 能 ， 当 代 新 型 系统 不 能 提供 类 似 关系 型 数据 库 的 某 些 特性 ， 如 强制 的 数据 完整 性 。 由 于 这 类 数据 
管理 系统 相对 较 新 ， 标 准 并 不 完善 ， 数 据 库 的 特征 和 数据 模型 因数 据 库 矿 商 对 大 数据 理解 的 不 同 有 非常 大 的 分 歧 。 一 些 数据 库 系 
统 并 不 提供 事务 处 理 ， 而 另 一 些 甚至 不 使 用 SQL。 总 体 来 说 ， 关 系 型 数据 库 是 基于 关系 数据 模型 的 ， 但 NoSQL 并 不 是 ，NoSQL 
的 数据 模型 更 为 多 样 。 截 至 2016 年 3 月 ， 已 知 的 NoSQL 型 数据 库 系 统 已 经 有 了 300 余 种 。 具 体 来 说 ， 所 有 的 天 系 型 数据 库 都 基于 
相同 的 数据 模型 和 数据 处 理 语言 ， 因 此 功能 都 大 同 小 异 。 而 NoSQL 系 统 各 有 不 同 ， 如 不 同 的 数据 处 理 模 型 、 不 同 的 查询 语言 、 
是 否 支 持 事务 、 不 同 的 API 接 口 和 安全 特性 等 。 因 此 ， 不 同 NoSQL 系 统 的 基本 特性 是 不 定 的 ， 但 却 是 趋 于 重 亚 的 。 


一 项 市 场 研究 报告 指出 B，NoSQL 产 品 2018 年 能 够 产生 140 亿 美元 的 商业 价值 。 目 前 ，NoSQL 厂 商 正在 快速 开发 新 的 数据 
库 特性 ， 而 市 场 因 其 新 特性 已 经 有 打破 关系 型 数据 库 一 家 独 大 局 面 的 趋势 。 


NewSQL 系 统 结 合 了 关系 型 数据 库 和 NoSQL 系 统 两 者 的 特点 ， 因 此 NewSQL 本 质 上 是 对 各 种 新 的 可 扩展 /高 性 能 数据 库 的 简 
称 ， 这 类 数据 库 不 仅 具 有 NoSQL 对 海量 数据 的 存储 管理 能 力 ， 还 保留 了 传统 数据 库 支持 的 ACID 和 SQL 等 特性 。 各 类 NewSQL 系 
统 虽 然 在 内 部 结构 上 变化 很 大 ， 但 是 它们 有 两 个 显著 的 共同 特点 : @ 它 们 都 支持 关系 数据 模型 ，@ 它 们 都 使 用 SQL 作为 其 主要 的 
接口 。 已 知 的 第 一 个 NewSQL 系 统 是 H-Store， 它 是 一 个 分 布 式 并 行内 存 数据 库 系统 。 


[1] Gudivada V, Rao D, Raghavan V. Renaissance in Database Management: Navigating the Landscape of Candidate 
Systems [J] . IEEE Computer, 2016, 49 (4) : 31-42. 

[2] Bijwe S, Ramteke P. Database in Cloud Computing-Database-as-a Service (DBaas) wth its Challenges [J] . International Journal of 
Computet Science and Mobile Computing, 2015, 4 (2) : 73-79. 


D] Market Research Media. NoSQLMarket Forecast2015- 


2020 LEB/OL] . http:www. marketresearchmedia. com/p=568. Mar. 2016Available. 


6.4.1 SQL 类 数据 库 


传统 关系 型 数据 库 市 场 依然 由 Oracle、MySQL、Microsoft SQL Server 所 把 控 ， 目 前 依然 占据 数据 库 市 场 的 最 大 份额 。 然 
而 这 三 个 数据 库 在 产品 功能 趋同 的 情况 下 ， 也 在 进行 差异 化 发 展 。 这 三 个 系统 已 经 非常 完善 且 功 能 基本 一 致 ， 本 节 对 其 进行 简单 


的 介绍 。 


1) Oracle: Oracle 是 功能 最 为 完善 与 强大 的 数据 库 ， 可 以 提供 一 整套 从 软件 到 硬件 的 各 种 解决 方案 。 目 前 ， 它 依然 是 传统 
金融 、 电 信行 业 的 重要 数据 库 选 型 参考 。 近 年 来 ，Oracle 数 据 库 已 经 不 满足 提供 单纯 的 数据 库 软 件 ， 开 始 提供 一 体 机 解决 方 
案 ， 这 应 看 成 是 Oracle 数 据 库 未 来 着 力 发 展 的 一 个 方向 。Oracle 数 据 库 一 体 机 是 全 面 集 成 了 Oracle 数 据 库 软件 和 服务 器 、 存 
储 、 网 络 系统 的 一 体 化 数据 库 设 备 ， 无 需 组 装 或 布线 。 要 使 用 Oracle 数 据 库 一 体 机 ， 只 需 打 开 包 装 ， 插 上 电源 线 ， 插 上 网 线 ， 
为 其 命名 ， 然 后 安装 Oracle 设 备 管理 器 软件 ， 即 可 快速 创建 一 个 集群 化 、 高 度 可 用 的 数据 库 系 统 。 未 来 ，Oracle 数 据 库 一 体 机 
主要 面向 的 是 中 小 企业 和 部 门 级 应 用 。 


2) MySQL: MySQL 是 最 为 流行 的 开源 数据 库 产品 ， 随 着 Oracle 公 司 收 购 SUN 公 司 ， 目 前 MySQL 已 经 隶属 于 Oracle 公 司 。 
MySQL 是 互联 网 行业 使 用 最 为 广泛 的 数据 库 ，Facebook、Google、 百 度 、 腾 讯 、 阿 里 和 网 易 等 互联 网 公司 都 是 其 客户 。 


3) Microsoft SQL Server: Microsoft SQL Server 是 一 个 全 面 的 数据 库 平台 ， 使 用 集成 的 商业 智能 (Bl) 工具 提供 了 企业 
级 数据 管理 。Microsoft SQL server 数 据 库 引 警 为 关系 型 数据 和 结构 化 数据 提供 了 安全 可 靠 的 人 存储 功能 ， 可 以 构建 和 管理 用 于 业 
务 的 高 可 用 和 高 性 能 的 数据 应 用 程序 。Microsoft SQL server 的 优点 是 可 以 集成 Windows 平 台 的 所 有 特性 ， 提 供 一 站 式 的 整体 
解决 方案 。 缺 点 是 由 于 是 Windows 数 据 库 ， 因 此 其 只 能 部 署 在 Windows 操 作 系统 上 ， 系 统 的 稳定 性 有 所 欠缺 。 同 时 ， 也 导致 其 
在 互联 网 应 用 中 所 占 份额 相对 较 少 。 


表 6-2 总 结 了 上 述 关 系 型 数据 库 之 间 的 对 比 。 


表 6-2 SQL 类 数据 库 对 比 


整体 功能 : 常 完善 逐步 完善 中 完善 
发 展 方 问 一 体 机 解决 方案 逐步 蔡 换 传统 商业 数据 库 完整 的 Windows 解决 方案 
需要 市 场 和 时 间 的 考验 ,以 | 商业 数据 库 ， 价 格 可 能 难以 
可 能 此 证 明 征 全 可 以 蔡 换 传统 商 夭 受 ，Windows 平台， 稳定 性 
业 数 据 库 一 艇 


应 用 范围 | 传统 企业 客户 传统 企业 客户 


产 上 下 缺 点 


商业 数据 库 ， 价 格 
难 


以 承受 





6.4.3 ”NewSQL 类 数据 库 


NewSQL 类 数据 库 的 两 个 代表 一 个 是 国外 的 Google Spanner， 另 一 个 是 国内 的 阿里 OceanBase。 这 两 个 数据 库 中 一 个 是 国 
际 上 使 用 量 最 大 的 NewSQL 数 据 库 ， 一 个 是 国内 使 用 量 最 大 的 NewSQL 数 据 库 。 因 此 ， 本 节 将 对 它们 进行 简单 介绍 。 


1) Google Spanner: Spannerl1] 是 Google 的 全 球 级 分 布 式 数据 库 。Spanner 具 有 高 扩展 性 、 多 版 本 (multi-version) 、 
世界 级 分 布 (globally-distributed) 及 同步 复制 (synchronously-replicated) 等 特性 。Spanner 立 足 于 高 抽象 层次 ， 使 用 
Paxos 协 议 横 跨 多 个 数据 集 把 数据 分 散 到 世界 上 不 同 数据 中 心 的 状态 机 中 ， 世 界 范围 内 响应 ， 出 故障 时 客户 副本 之 间 可 自动 切 
换 。 当 数据 总 量 或 服务 器 的 数量 发 生 改变 时 ， 为 了 平衡 负载 和 处 理 故 障 ，Spanner 自 动 完成 数据 的 重 切片 和 跨 机 器 (甚至 跨 数据 
中 心 ) 的 数据 迁移 。Spanner 可 以 轻松 横 跨 数 百 个 数据 中 心 将 万 亿 级 数据 库 行 扩展 到 数 百 万 台 机 器 中 。 高 可 靠 性 更 是 让 应 用 程序 
如 虎 添 又 ， 即 使 面 对 大 范围 的 自然 灾害 ， 此 系统 的 可 靠 性 仍然 能 得 到 良好 的 保障 (因为 Spanner 有 着 世界 级 数据 转移 ) 。 最 初 的 
用 户 来 自 F1 一 一 使 用 了 美国 境内 的 5 个 拷贝 。 多 数 其 他 应 用 程序 都 是 在 同一 个 地 理 区 域 将 数据 复制 3 到 5 份 ， 使 用 相对 独立 的 故障 
模式 。 也 就 是 说 ， 多 数 的 应 用 程序 会 选择 低 延 迟 超 过 高 有 效 性 ， 只 用 一 两 个 数据 中 心 来 保障 数据 的 可 靠 性 。 目 前 ，Google 的 云 
服务 中 还 没有 提供 Spanner，Google 正 在 逐步 将 部 分 内 部 业务 迁移 到 Spanner 上 ， 如 Google 广 告 业务 ， 相 信和 在 不 久 的 将 来 会 看 
到 Google Cloud 正 式 推 出 Spanner 云 服务 。 


2) 阿里 OceanBase: OceanBase 四 是 一 个 支持 海量 数据 的 高 性 能 分 布 式 数据 库 系统 ， 实 现 了 数 干 亿 条 记录 、 数 百 TB 数据 
上 的 跨行 跨 表 事务 ， 由 淘宝 核心 系统 研发 部 、 运 维 、DBA、 广 告 和 应 用 研发 等 部 门 共同 完成 。 在 设计 和 实现 上 ，OceanBase 暂 
时 据 奔 了 不 紧急 的 DBM SS 的 功能 ， 如 临时 表 、 视 图 (view) ， 研 发 团队 把 有 限 的 资源 集中 到 关键 点 上 ， 当 前 OceanBase 主 要 解 
决 数据 更 新 一 致 性 、 高 性 能 的 跨 表 读 事务 、 范 围 查询 、 连 接 、 数 据 全 量 及 增 量 dump 和 批量 数据 导入 。 目 前 OceanBase 已 经 应 
用 于 淘宝 收藏 夹 ， 用 于 存储 淘宝 用 户 收藏 条 目 和 具体 的 商品 、 店 铺 信息 ， 每 天 支持 4 干 万 ~ 5 干 万 的 更 新 操作 。 目 前 OceanBase 
还 处 于 阿里 集团 内 部 推广 应 用 的 阶段 ， 随 着 在 内 部 系统 上 的 逐渐 稳定 ， 后 续 阿 里 云 可 能 会 考虑 提供 OceanBase 的 云 服务 。 


表 6-5 显 示 了 OceanBase 与 分 布 式 MySQL 数 据 库 之 间 的 对 比 。 


表 6-5 OceanBase 与 分 布 式 MySQL 数 据 库 对 比 


访问 接口 API 接口 、MySQL 客户 端 协议 MySQL 客户 端 协 议 

数据 访问 透明 是 对 SQL 语句 有 限制 

数据 一 致 性 最 终 一 致 性 

高 可 用 通过 Proxy 和 数据 库 复制 技术 


性 能 瓶颈 更 新 系统 服务 是 单 点 瓶 颁 无 ， 视 数据 库 单 机 容量 








特定 应 用 类 型 ， 比 如 每 日 更 新 量 较 小 ， 
可 以 被 Update Server 完全 缓存 


通用 业务 类 型 





[1] Corbett J, Dean J, Epstein M, et al. Spannet: Google” s Globally Distributed Database [J] . ACM Transactions on Computer 
Systems (TOCS) , 2013, 31 (3) : 8. 
[2 杨 传 辉 . 淘宝 Oceanbase 云 存储 系统 实践 [J]] . 程序 员 ，2011 (5) : 78-80. 


6.5 小结 


随 着 数据 规模 的 急剧 增长 ， 不 同 应 用 需求 催生 了 众多 针对 特种 应 用 的 数据 库 管理 系统 ， 其 中 科学 大 数据 管理 系统 便 是 一 种 。 
我 们 不 可 能 一 一 列举 ， 仅 在 此 列 出 一 些 经 典 的 大 数据 管理 系统 ， 希 望 对 读者 能 有 一 定 的 借鉴 意义 ， 现 将 3 类 大 数据 系统 总 结 如 
下 


就 云 计算 平台 而 言 ， 无 论 是 基于 哪 种 云 平台 ， 它 们 解决 的 问题 是 一 致 的 ， 只 是 设计 方式 各 有 不 同 。 设 计 的 不 同 点 体现 在 : @ 
虚拟 化 程度 ， 有 些 粗 粒度 平台 借助 以 往 的 虚拟 机 进行 虚拟 化 ， 而 容器 云 使 用 细 粒 度 共 享 系统 资源 技术 以 提高 利用 率 ; @ 复 杂 程 度 
不 同 ， 某 些 云 平台 面向 私有 云 设 计 ， 但 面向 公有 云 设计 的 云 平台 就 要 复杂 得 多 。 


就 批 数据 与 流 数据 管理 系统 而 言 ， 它 们 解决 的 问题 不 同 ， 因 此 设计 方式 也 不 同 。 但 目前 这 两 类 系统 有 趋 于 统一 的 迹象 。 不 仪 
是 处 理 模式 上 ， 批 处 理 和 流 处 理 可 以 借助 内 存 的 高 速 特性 加 以 统一 ， 在 上 层 的 编程 模式 上 目前 也 在 渐进 统一 。 例 如 ，Apache 
Beam 同 样 是 Apache 的 顶级 项 目 ， 目 的 是 开发 一 款 SDK， 充 分 解 看 编程 与 底层 系统 之 间 的 关系 ， 并 能 完成 流 数据 和 批 数据 处 理 
编程 上 的 统一 ， 加 强 程序 的 可 移植 性 。 


就 SQL、NosQl 与 NewSQL 系 统 而 言 ，NoSQL 系 统 和 NewSQL 系 统 解决 的 问题 是 SQL 系统 的 一 个 延伸 ， 因 此 设计 方式 不 
同 。 传 统 SQL 类 数据 库 并 未 失去 其 市 场 ， 尤 其 是 个 人 及 小 微型 企业 的 数据 管理 业务 市 场 ; NoSQL 发 展 迅猛 ， 尤 其 是 面向 特定 领 
域 时 ， 如 科学 领域 ， 用 户 更 加 看 重 性 能 和 与 业务 需求 相关 的 特点 ;NewSQL 则 更 加 侧重 于 云端 数据 库 等 相关 应 用 ， 也 需要 在 上 
层 应 用 接口 上 进一步 统一 。 


第 7 草 ”基于 大 数据 的 交 又 学科 研究 


7.1 引言 


大 数据 时 代 的 到 来 ， 为 研究 人 类 社会 动态 和 模拟 社会 问题 带 来 了 前 所 未 有 的 机 遇 。 计 算 机 科学 家 、 社 会 学 家 等 各 领域 学 者 开 
始 关注 大 数据 对 社会 、 经 济 、 科 学 研究 等 带 来 的 巨大 价值 。 美 国 圣 塔 菲 研究 所 (Santa Fe Institute) 、Google 研 究 院 
(Research at Google) 、 惠 普 社 会 计算 实验 室 (HP social Computing Lab) 等 跨 学 科研 究 机 构 和 哈佛 、 斯 坦 福 、 康 奈 尔 等 
大 学 ， 开 始 用 复杂 性 科学 来 描述 社会 系统 中 的 复杂 现象 ， 提 出 了 复杂 适应 系统 等 一 系列 新 理论 ， 以 计算 机 作为 研究 复杂 性 科学 的 
基本 工具 ， 开 创 了 “计算 社会 科学 ”[1] 等 新 的 研究 方法 ， 社 会 计算 开始 进入 人 类 社会 。 


自然 科学 、 社 会 科学 和 人 文科 学 只 是 学 术 建 制 意义 上 的 区 分 ， 它 们 之 间 总 是 密切 联系 的 。 自 然 科学 的 根本 目的 在 于 发 现 自然 
现象 背后 的 规律 ，20 世 纪 50 年 代 之 前 ， 社 会 科学 与 自然 科学 相对 独立 ， 跨 学 科研 究 较 少 。 如 图 7-1 所 示 ， 社 会 科学 与 自然 科学 由 
一 条 学 科 河 分 隔 ， 河 的 左岸 是 以 科学 计算 为 核心 研究 范式 ， 以 系统 科学 、 控 制 论 、 人 工 智 能 等 作为 研究 方法 的 自然 科学 ;右岸 是 


心理 学 、 经 济 学、 传播 学 、 社 会 学 和 政治 学 等 社会 科学 。 


20 世 纪 70 ~ 90 年 代 ， 人 类 进入 后 工业 化 时 代 ， 信 息 革 命 改变 了 一 切 ， 经 济 、 政 治 、 文 化 的 全 球 化 融合 达到 新 的 阶段 ， 科 学 
发 展 变 得 越 来 越 快 ， 越 来 越 复杂 。 大 工业 和 高 科技 为 人 类 创造 了 非常 丰富 的 财富 ， 但 同时 也 把 人 与 自然 的 关系 、 人 与 人 的 关系 置 
于 一 个 危险 的 境地 ， 社 会 不 平等 、 阶 级 冲突 、 社 会 异化 、 种 族 冲突 、 政 治 革 命 、 宗 教 冲突 、 国 家 冲突 和 环境 恶化 等 社会 问题 突 
出 ， 人 类 越 来 越 重视 对 自身 前 途 与 命运 的 价值 关怀 。 为 了 准确 地 研究 社会 问题 ， 经 济 学 、 社 会 学 等 学 科 都 试图 形成 一 套 完整 的 定 
量 分 析 研 究 手 段 ， 用 严谨 的 数学 方法 对 间 题 进行 描述 和 求解 ， 但 由 于 现实 世界 是 一 个 多 变量 复杂 系统 ， 很 难 像 物 理学 那样 用 数学 
公式 精确 地 描述 和 求解 问题 。 在 这 种 共同 的 背景 下 ， 自 然 科 学 、 社 会 科学 开始 走 到 一 起 ， 任 何 一 门 科学 都 开始 意识 到 自己 的 相对 
性 ， 意 识 到 自己 与 其 他 学 科 密切 关联 。 如 图 7-1 所 示 ， 建 立 在 自然 科学 与 社会 科学 之 间 ， 位 于 学 科 河 之 上 的 跨 学 科 社会 计算 研究 
逐渐 兴起 ， 这 些 学 科 都 有 数据 密集 型 的 特点 ， 包 括 社 会 网 络 分 析 、 计 算 社 会 科学 、 社 会 控制 论 等 。 


自然 科学 学 科 河 


社会 科学 


信息 可 视 岂 


| 










“动力 … 
系统 理论 


图 7-1 跨 学 科 社 会 计算 研究 范式 示意 图 中 


社会 科学 与 自然 科学 的 本 质 区 别 在 于 思维 方式 不 同 ， 社 会 科学 是 总 体 逻 辑 思 维 ， 自 然 科 学 是 类 型 逻辑 思维 。 类 型 逻辑 思维 认 
为 应 该 重点 关注 典型 现象 ， 只 要 理解 了 典型 现象 的 规律 ， 就 可 以 将 其 概括 并 推广 到 个 体 和 具体 问题 。 总 体 逻 辑 思 维 关注 独立 各 异 
个 案 的 整体 分 布 ， 社 会 科学 认为 变异 是 社会 现实 的 本 质 ， 社 会 学 家 的 工作 就 是 从 变异 中 寻求 规律 ， 以 经 验 为 基础 、 以 量化 为 导向 
地 去 概括 总 体 变异 的 系统 模式 ， 社 会 科学 的 量化 无 法 挖掘 出 普 适 规律 来 摘 述 和 解释 所 有 个 体 行为 。 正 是 因为 思维 方式 的 不 同 ， 社 
会 科学 与 自然 科学 之 间 的 壁垒 仍 然 难以 逾越 ， 社 会 学 家 批评 技术 学 派 所 进行 的 社会 计算 研究 缺乏 理论 指导 ， 技 术 学 派 认 为 社会 科 
学 研究 所 用 数据 规模 太 小 不 可 信任 。 为 社会 计算 提出 跨 学 科 的 协作 与 训练 、 提 出 学 科 间 统一 的 理论 指导 是 当前 最 大 的 挑战 。 


正 是 在 这 种 背景 之 下 ， 跨 学 科研 究 范 式 一 一 社会 计算 开始 受到 学 术 界 的 关注 和 应 用 ， 并 产生 了 一 系列 有 重大 影响 的 研究 成 
果 。 社 会 计算 基于 系统 科学 、 网 络 科 学 、 复 杂 性 科学 等 科学 理论 ， 利 用 人 工 智 能 、 数 据 挖掘 等 科学 计算 理论 作为 研究 方法 ， 以 社 
会 、 经 济 等 领域 大 数据 作为 研究 对 象 ， 交 叉 融 合 各 学 科 理 论 ， 是 人 类 更 深入 地 认识 社会 、 改 造 社会 ， 解 决 政治 、 经 济 和 文化 等 领 
域 复 杂 社 会 问题 的 一 种 理论 和 方法 论 体 系 。 
[1] Lazer D, Pentland AS, Adamic L, etal. Computational Social Sicence [J] . Science, 2009, 323 (5915) : 721-723 . 


四 孟 小 峰 ， 李 勇 ， 等 .社会 计算 : 大 数据 时 代 的 机 遇 与 挑战 [J] . 计算 机 研究 与 发 展 ，2013，50 (12) : 2483-2491. 


第 7 章 ”基于 大 数据 的 交叉 学 科研 究 


7.1 引言 


大 数据 时 代 的 到 来 ， 为 研究 人 类 社会 动态 和 模拟 社会 问题 带 来 了 前 所 未 有 的 机 遇 。 计 算 机 科学 家 、 社 会 学 家 等 各 领域 学 者 开 
始 关注 大 数据 对 社会 、 经 济 、 科 学 研究 等 带 来 的 巨大 价值 。 美 国 圣 塔 菲 研究 所 (Santa Fe Institute) 、Google 研 究 院 
(Research at Google) 、 惠 普 社 会 计算 实验 室 (HP Social Computing Lab) 等 跨 学 科研 究 机 构 和 哈佛 、 斯 坦 福 、 康 奈 尔 等 
大 学 ， 开 始 用 复杂 性 科学 来 描述 社会 系统 中 的 复杂 现象 ， 提 出 了 复杂 适应 系统 等 一 系列 新 理论 ， 以 计算 机 作为 研究 复杂 性 科学 的 
基本 工具 ,开创 了 “计算 社会 科学 ”等 新 的 研究 方法 ， 社 会 计算 开始 进入 人 类 社会 。 


自然 科学 、 社 会 科学 和 人 文科 学 只 是 学 术 建 制 意义 上 的 区 分 ， 它 们 之 间 总 是 密切 联系 的 。 自 然 科 学 的 根本 目的 在 于 发 现 自然 
现象 背后 的 规律 ，20 世 纪 50 年 代 之 前 ， 社 会 科学 与 自然 科学 相对 独立 ， 跨 学 科研 究 较 少 。 如 图 7-1 所 示 ， 社 会 科学 与 自然 科学 由 
一 条 学 科 河 分 隔 ， 河 的 左岸 是 以 科学 计算 为 核心 研究 范式 ， 以 系统 科学 、 控 制 论 、 人 工 智能 等 作为 研究 方法 的 自然 科学 ; 右岸 
心理 学 、 经 济 学、 传播 学 、 社 会 学 和 政治 学 等 社会 科学 。 


20 世 纪 70 ~ 90 年 代 ， 人 类 进入 后 工业 化 时 代 ， 信 息 革 命 改变 了 一 切 ， 经 济 、 政 治 、 文 化 的 全 球 化 融合 达到 新 的 阶段 ， 科 学 
发 展 变 得 越 来 越 快 ， 越 来 越 复杂 。 大 工业 和 高 科技 为 人 类 创造 了 非常 丰富 的 财富 ， 但 同时 也 把 人 与 自然 的 关系 、 人 与 人 的 关系 置 
于 一 个 危险 的 境地 ， 社 会 不 平等 、 阶 级 冲突 、 社 会 异化 、 种 族 冲突 、 政 治 革 命 、 宗 教 冲突 、 国 家 冲突 和 环境 恶化 等 社会 问题 突 
出 ， 人 类 越 来 越 重 视 对 自身 前 途 与 命运 的 价值 关怀 。 为 了 准确 地 研究 社会 问题 ， 经 济 学 、 社 会 学 等 学 科 都 试图 形成 一 套 完整 的 定 
量 分 析 研 究 手 段 ， 用 严谨 的 数学 方法 对 间 题 进行 描述 和 求解 ， 但 由 于 现实 世界 是 一 个 多 变量 复杂 系统 ， 很 难 像 物 理学 那样 用 数学 
公式 精确 地 描述 和 求解 问题 。 在 这 种 共同 的 背景 下 ， 自 然 科 学 、 社 会 科学 开始 走 到 一 起 ， 任 何 一 门 科学 都 开始 意识 到 自己 的 相对 
性 ， 意 识 到 自己 与 其 他 学 科 密切 关联 。 如 图 7-1 所 示 ， 建 立 在 自然 科学 与 社会 科学 之 间 ， 位 于 学 科 河 之 上 的 跨 学 科 社会 计算 研究 
逐渐 兴起 ， 这 些 学 科 都 有 数据 密集 型 的 特点 ， 包 括 社会 网 络 分 析 、 计 算 社会 科学 、 社 会 控制 论 等 。 
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图 7-1 跨 学 科 社 会 计算 研究 范式 示意 图 站 


社会 科学 与 自然 科学 的 本 质 区 别 在 于 思维 方式 不 同 ， 社 会 科学 是 总 体 逻 辑 思 维 ， 自 然 科 学 是 类 型 逻辑 思维 。 类 型 逻辑 思维 认 
为 应 该 重点 天 注 典 型 现象 ， 只 要 理解 了 典型 现象 的 规律 ， 就 可 以 将 其 概括 并 推广 到 个 体 和 具体 问题 。 总 体 逻 辑 思维 关注 独立 各 异 
个 案 的 整体 分 布 ， 社 会 科学 认为 变异 是 社会 现实 的 本 质 ， 社 会 学 家 的 工作 就 是 从 变异 中 寻求 规律 ， 以 经 验 为 基础 、 以 量化 为 导向 


地 去 概括 总 体 变异 的 系统 模式 ， 社 会 科学 的 量化 无 法 挖掘 出 普 适 规律 来 摘 述 和 解释 所 有 个 体 行为 。 正 是 因为 思维 方式 的 不 同 ， 社 
会 科学 与 自然 科学 之 间 的 壁 侈 仍然 难以 逾越 ， 社 会 学 家 批评 技术 学 派 所 进行 的 社会 计算 研究 缺乏 理论 指导 ， 技 术 学 派 认为 社会 科 
学 研究 所 用 数据 规模 太 小 不 可 信任 。 为 社会 计算 提出 跨 学 科 的 协作 与 训练 、 提 出 学 科 间 统一 的 理论 指导 是 当前 最 大 的 挑战 。 


正 是 在 这 种 背景 之 下 ， 跨 学 科研 究 范式 一 一 社会 计算 开始 受到 学 术 界 的 关注 和 应 用 ， 并 产生 了 一 系列 有 重大 影响 的 研究 成 
果 。 社 会 计算 基于 系统 科学 、 网 络 科 学 、 复 杂 性 科学 等 科学 理论 ， 利 用 人 工 智能 、 数 据 挖掘 等 科学 计算 理论 作为 研究 方法 ， 以 社 
会 、 经 济 等 领域 大 数据 作为 研究 对 象 ， 交 叉 融 合 各 学 科 理 论 ， 是 人 类 更 深入 地 认识 社会 、 改 造 社会 ， 解 决 政治 、 经 济 和 文化 等 领 
域 复杂 社会 问题 的 一 种 理论 和 方法 论 体系 。 


[1] Lazer D, Pentland AS, Adamic L, etal. Computational Social Sicence [J] . Science, 2009, 323 (5915) : 721-723 . 
D] 孟 小 峰 ， 李 勇 ， 等 ,社会 计算 : 大 数据 时 代 的 机 遇 与 挑战 [J] . 计算 机 研究 与 发 展 ，2013，50 (12) : 2483-2491 . 


7.2.1 在 线 用 户 行为 大 数据 


该 数据 集 已 累积 了 TB 量 级 的 数据 ， 为 分 析 方 便 ， 本 章 首 先 随机 抽取 1000 个 样本 用 户 一 个 月 内 约 1.2 亿 条 数据 记录 。 假 设 每 个 
用 户 在 这 一 个 月 的 短期 行为 具有 稳定 性 ， 分 析 并 得 出 结论 ， 然 后 将 结论 推广 到 所 有 用 户 以 及 所 有 时 间 进 行 验证 ， 以 证 实 这 种 行为 
规律 的 普遍 性 。 


个 性 化 推荐 研究 中 对 用 户 在 线 兴趣 进行 了 比较 细致 的 分 析 和 研究 ， 用 户 在 线 很 多 行为 都 能 暗示 其 喜好 ， 如 查询 、 浏 览 页 面 和 
文章 、 标 记 书签 、 反 馈 信息 及 点 击 鼠 标 等 ， 用 户 访问 时 的 停留 时 间 、 访 问 次 数 等 动作 也 能 揭示 用 户 兴趣 。 本 章 将 用 户 兴趣 定位 于 
点 击 鼠 标 、 停 留 时 间 和 访问 次 数 等 行为 上 。 


对 在 线 点 击 数据 统计 分 析 发 现 ， 用 户 在 长 时 间 的 停 软 状态 后 会 产生 密集 的 点 击 行为 ， 之 后 又 是 长 时 间 的 停 软 状态 ， 表 现 出 很 
强 的 随机 性 和 阵 发 性 ， 如 图 7-2a 所 示 ， 同 时 也 表现 出 很 强 的 窜 律 特性 ， 短 时 间 的 密集 点 击 行为 所 占 时 间 比 例 较 小 ， 长 时 间 的 停 
欲 状 态 呈 现 出 长 尾 特 征 ， 如 图 7-2b 所 示 ， 窜 指数 ax-1.7， 图 7-2b 中 嵌入 的 小 图 是 点 击 时 间 间 隔 的 概率 在 双 对 数 坐标 下 的 分 布 
图 。 
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图 7-2 ”在 线 用 户 兴 趣 行为 阵 发 性 统计 分 布 


用 户 点 击 行为 展现 出 一 定 程度 的 随机 性 ， 主 要 有 以 下 几 方 面 原因 : 首先 ， 人 们 还 不 知道 该 行为 过 程 的 规则 ， 一 个 观察 者 只 拥 
有 对 一 个 行为 过 程 的 不 完全 知识 ; 其次， 可 能 有 一 种 机 制 放 大 了 宏观 行为 波动 性 过 程 的 不 可 预测 性 ; 第 三 ， 存 在 着 多 种 多 样 的 明 
显 的 观察 所 引起 的 随机 性 。 为 方便 分 析 ， 首 先 将 用 户 在 线 点 击 行为 时 间 序列 看 作 一 个 随机 过 程 ， 根 据 随 机 过 程 已 有 理论 进行 对 比 


分 析 ， 如 周期 性 过 程 、 马 尔 可 夫 过 程 和 R 阶 马尔 可 夫 过 程 等 ， 以 准确 界定 在 线 用 户 兴趣 行为 的 演化 规律 。 在 兴趣 演化 规律 研究 的 
基础 上 ， 将 兴趣 的 概念 泛 化 ， 讨 论 在 线 用 户 的 注意 力 的 演化 规律 。 


7.2.2 ”在 线 用 户 行为 演化 


在 线 用 户 行为 演化 的 研究 内 容 主要 包括 两 方面 : “在 线 用 户 兴趣 长 程 演化 研究 ”和 “在 线 用 户 集体 注意 力 流 研究 ”。“ 兴 
趣 ” 和 “注意 力 流 ”是 在 线 用 户 行为 的 两 种 不 同 表 述 ， 都 体现 在 用 户 的 点 击 行为 上 。 “兴趣 ”是 站 在 人 的 行为 角度 ，“ 注 意 力 
流 ” 是 站 在 人 的 行为 与 Web 发 展 的 协同 演化 角度 ， 人 的 行为 与 Web 的 发 展演 化 这 两 方面 相辅相成 ， 共 同 造 就 了 万 维 网 的 茵 勃发 
展 和 信息 社会 的 繁荣 。 


在 这 两 项 研究 内 容 中 ，“ 人 在线 用 户 兴 趣 长 程 演化 ”研究 在 线 用 户 点 击 行为 的 随机 性 和 记忆 性 特征 ， 揭 示人 类 兴趣 动力 学 的 本 
质 规律 。 根 据 热力 学 第 二 定律 ， 信 息 、 物 质 、 能 量 是 主导 生命 过 程 的 核心 要 素 川 ， 信 息 与 负 粹 相当 ， 信 息 的 失去 为 负 炳 的 增加 所 
补偿 ， 受 此 启发 ， 本 章 基于 块 炳 理论 ， 根 据 用 户 在 线 点 击 行为 大 数据 ， 计 算 行为 变化 的 块 阐 、 超 粹 、 增 等 量 ， 分 析 用 户 兴趣 点 
在 特定 时 间 段 内 演化 的 过 程 ， 从 而 揭示 人 类 兴趣 变化 的 潜在 规律 ， 为 大 数据 时 代 在 线 用户 兴 趣 的 动力 学 规律 发 现 以 及 精 ; 准 预测 提 
供 理论 支持 。 


“在 线 用 户 注意 力 流 ” 从 生态 学 的 新 陈 代谢 理论 出 发 ， 将 用 户 的 注意 力 流 看 作 Web 进 化 的 “能 量 ”， 结 合 经 济 学 中 的 投入 
产 出 分 析 理 论 ， 分 析 能 量 与 代谢 之 间 的 关系 ， 研 究 注意 力 与 Web 站 点 演化 的 动力 学 规律 。 著 名 物理 学 家 薛 定 廖 在 《生命 是 什 
么 ?》 一 书 中 认为 ， 新 陈 代谢 是 所 有 已 知 生命 最 显著 的 共有 特征 ， 能 量 是 生命 之 本 。 如 果 把 Web 社 区 看 作 生 命 体 ， 则 它 必然 同 
样 具 备 新 陈 代谢 功能 。 那 么 ， 什 么 是 Web 社 区 新 陈 代谢 的 能 量 ” 我 们 猜想 是 在 线 集 体 用 户 的 注意 力 流产 生 的 “能 量 ”， 用 户 的 
注意 力 流 维持 着 Web 社 区 的 发 展 ， 只 有 不 断 吸 引 更 多 用 户 的 点 击 和 注意 力 ，Web 社 区 才能 “存活 ”， 获 得 注意 力 越 多 ， 就 有 越 
多 的 机 会 发 展 和 繁衍 (分 化 出 更 多 的 子 社区 ) 。 无 数 的 Web 社 区 每 时 每 刻 都 在 不 断 吸收 着 用 户 的 注意 力 ， 一 部 分 转化 为 自身 内 
部 的 信息 资源 ， 并 产生 对 整个 Web 社 区 及 在 线 用 户 的 影响 力 ， 另 一 部 分 废弃 注意 力 则 以 耗 散 的 形式 排出 虚拟 世界 。 基 于 这 个 视 
角 ， 本 章 研究 了 注意 力 流动 与 Web 演 化 的 动力 学 规律 ， 为 Web 站 点 的 排名 提出 了 一 个 比 传统 页 面 链接 算法 (如 PageRank 算 法 
等 ) 更 有 效 、 更 实用 的 算法 ; 同时 还 发 现 ，Web 站 点 与 集体 用 户 注意 力 流 之 间 存 在 异 速 标 度 率 、 耗 散 率 、 引 力 定 律 等 动力 学 规 
律 ， 加 深 了 对 Web 演 化 规律 的 认识 ， 丰 富 了 Web 大 数据 研究 内 容 和 方法 。 


[1] Martyushev L M, Swlwznev V D. Maximun Entropy Production Principle in Physics, Chemistry and Biology [J|] . Physics Repotts- 


Review Section of Physics Letters, 2006, 426 (1) : 1-45. 


7.3 在线 用 尸 兴趣 长 程 演化 


互联 网 是 人 类 最 伟大 的 发 明之 一 ， 已 成 为 影响 社会 经 济 发 展 、 改 变 人 类 文明 形态 的 重要 载体 。 在 线 查询 、 浏 览 、 标 记 、 购 
物 、 娱 乐 等 行为 已 成 为 在 线 用 户 最 重要 的 生活 常态 。 人 的 许多 行为 由 兴趣 所 驱动 ， 兴 趣 随时 间 在 不 断 变 化 ， 有 些 兴 趣 伴 其 一 生 ， 
有 些 兴趣 只 能 持续 短暂 的 时 间 。 在 线 用 户 的 许多 行为 都 可 以 被 网 络 日 志 详细 地 记录 下 来 ， 为 分 析 人 类 兴趣 演化 规律 提供 了 可 能 。 
兴趣 的 演化 规律 在 商业 、 医 学 、 集 体 事件 预防 等 领域 有 着 广泛 的 应 用 前 景 ， 对 用 户 兴趣 的 了 解 可 以 促进 定向 广告 的 设计 和 产品 精 
准 曹 销 ， 了 解 精神 病 患者 的 兴趣 变化 有 助 于 做 到 准确 地 诊断 和 治疗 ， 对 个 人 及 集体 兴趣 的 了 解 有 助 于 预测 非常 规 突 发 事件 。 


7.3.1 “理论 与 方法 


人 类 行为 研究 已 有 很 长 的 历史 ， 曾 被 认为 是 经 济 学 的 基础 []， 但 由 于 缺乏 定量 分 析 ， 这 方面 的 研究 一 直 未 能 引起 学 术 界 的 广 
泛 认 可 。2005 年 ，《Nature》 上 的 一 篇 论文 揭示 了 人 类 行为 在 时 间 上 对 泊 松 过 程 的 偏离 ， 提 出 了 一 个 基于 任务 优先 级 的 排队 论 
模型 向 ， 此 后 又 有 研究 发 现 人 类 行为 在 空间 上 的 标 度 律 ， 揭 示 了 人 类 在 空间 上 的 行为 也 不 同 于 随机 游 走 B]。 受 这 两 个 开创 性 研究 
的 影响 ， 大 量 文章 出 现在 《Nature》《Science》《PNAS》 等 期 刊 ， 掀 起 了 人 类 行为 动力 学 研究 的 热潮 ， 提 出 了 多 个 模型 对 人 
类 行为 的 重 尾 分 布 进行 解释 ， 如 泊 松 概率 模型 、 兴 趣 变化 模型 、 记 忆 效 应 和 人 际 交 互 模型 等 。 近 年 来 ， 计 算 机 科学 领域 的 研究 人 
员 基于 小 数据 对 人 类 兴趣 的 研究 主要 针对 行为 定向 和 兴趣 点 挖掘 和 内。 虽然 这 些 研究 推动 了 在 线 企业 的 发 展 ， 带 来 了 可 观 的 经 济 效 
益 , 但 对 人 类 行为 本 质 规律 探索 的 贡献 却 很 小 。 

言 息 论 由 Shannon 于 1948 年 提出 ， 基 于 Boltzmann 的 热力 学 焊 论 ， 最 初 用 于 通信 信道 的 分 析 建 模 。 信 息 论 可 用 于 分 析 随 
机 变量 的 结构 属性 ， 也 为 比较 离散 变量 及 连续 变量 的 概率 量 提供 了 可 能 。 首 先 假定 在 线 点 击 行为 是 一 个 随机 过 程 ， 根 据 焊 论 分 
析 随 机 过 程 的 结构 特征 ; 根据 连续 兴趣 点 随机 变量 的 块 粹 分 析 其 随机 性 和 记忆 性 特征 ;根据 率 、 超 粹 、 离 散 导 数 与 积分 等 
法 , 分析 随时 间 演 化 过 程 中 ， 时 间 序 列 数据 表现 出 的 随机 性 和 有 序 性 信息 ， 从 而 定量 分 析 在 线 兴 趣 的 演化 规律 。 本 节 应 用 炳 率 
h、 超 粹 E 和 暂 态 信息 T 三 个 量 分 析 在 线 用 户 兴 趣 行为 点 击 数据 ， 其 定义 见 表 7-1， 根 据 已 有 研究 结论 ， 这 三 个 量 已 足以 区 分 已 知 
的 多 个 随机 过 程 。 


表 7-1 一 些 常 见 随 机 过 程 的 蛟 率 及 相关 值 


随机 过 程 类 型 


T 
独立 同 分 布 : 
无 偏 p=0.5 1 0 
有 偏 p= 0.7 0.8813 0 


R BNartkov HR)-Rh H(R)-Rh 


H(1) -1 H(1)-h 
有 限 过 程 (指数 衰减 ) AH(L)-h=A:Y i me 
1=2 (1-2™*Y 
无 限 非 周期 过 程 AH(LD)-h=L™ cilogL + 6 [E+hL -hh ()] 
L=0 


[1] Mises L. Human Action [M] . Auburn, Alabama: Ludwigvon Mises Institute, 1998. 





[2] Barabasi A L. The Oftigin of Brust and Heavy Tails in Human Dynamics [J|] . Nature, 2005, 435 (7039) : 207-211. 
[3] Brockmann D, Hufnagel L, Geisel T. The Scaling Laws of Human Travel [J] . Nature, 2006, 439 (7075) : 462-465. 
[4] Aly M, Hatch A, Josifovski V, et al. Web-scale User Modeling for Targeting [LC] . Proceedings of the21th World Wide Web 


Conf (WWW) . New York: ACM, 2012: 3-12. 


7.3.2 ”在 线 用 户 兴 趣 演 化 分 析 门 


图 7-3 是 5 名 样本 用 户 的 增 曲线 H (L) 的 演化 情况 ， 尽 管 在 性 别 、 年 龄 、 地 域 等 人 口 属 性 方面 截然 不 同 ， 但 其 兴趣 演化 的 


粒 增 曲线 以 及 超 业 值 却 具 有 接近 一 致 性 ， 证 实 了 人 作为 高 级 生物 具有 “生物 是 物 ， 生 物 有 理 ” 的 规律 。 从 图 7-3 中 可 看 出 ， 块 精 
是 一 个 非 减 上 凸 曲线 ， 块 长 11 是 块 炳 的 相 变 点 ， 当 Lz<11 时 块 粹 增长 非常 迅速 ， 当 L> 11 时 ， 块 粹 在 14+2 范 围 内 平稳 绥 慢 渐 增 。 
块 曲 线 近 似 服从 公式 (7-1) 所 示 的 拟 合 曲线 ， 如 图 7-3 中 的 虚线 所 示 ， 其 中 x 表 示 块 长 度 ，y 表 示 块 灶 。 


y= 1.2]log (x) + 8.58 (7-1 ) 


这 说 明 在 线 用 户 的 兴趣 变化 具有 一 定 的 随机 性 ， 但 同时 又 是 一 个 长 程 记忆 过 程 ， 当 兴趣 量 达到 一 定数 量 时 ， 对 新 兴趣 点 的 探 
索 趋 近 饱 和 。 与 已 有 研究 结论 对 比 发 现 ， 在 线 用 户 兴趣 行为 与 马尔 可 夫 过 程 差别 较 大 。 
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图 7-3 在线 用 户 兴趣 行为 的 块 精 变 化 曲线 


态 信息 T 度 量 在线 用 户 的 兴趣 变化 过 程 的 结构 属性 ， 佑 量 与 一 个 过 程 进行 同步 时 的 难度 大 小 ， 即 需要 多 少 信息 量 才能 达到 
其 渐 近 形式 ， 一 个 过 程 有 较 大 的 T 值 ， 其 内 部 状态 的 不 确定 性 也 较 高 。5 名 样本 用 户 尽管 在 行为 变化 的 粹 增 曲线 H (L) 以 及 超 粒 E 
上 具有 一 致 性 ， 但 每 个 人 的 暂 态 信息 T 值 却 差别 较 大 ,符合 “人 人 相似 ， 人 人 不 同 ” 的 客观 现实 。 在 线 用 户 行为 尽管 相似 ， 但 每 
个 人 的 点 击 过 程 却 各 不 相同 ， 根 据 暂 态 信 息 T 值 即 可 将 每 个 人 的 不 同 特征 区 分 开 来 。 


图 7-4 展 示 了 灶 率 演化 曲线 h (L) 与 块 粹 增益 AH (L) 的 演化 曲线 ,嵌入 的 小 图 是 将 纵 轴 与 横 轴 接近 0 的 部 分 放大 后 的 结 
果 。 灶 率 度量 一 个 过 程 中 不 可 减少 的 随机 性 ， 显 示 随 着 块 长 度 L 的 逐渐 增 大 ， 序 列 中 的 相关 性 和 结构 的 随机 性 在 序列 中 的 变化 程 
度 。 一 个 过 程 有 较 高 的 随机 性 则 炳 率 较 大 ， 较 小 的 业 率 说 明 过 程 中 各 行为 之 间 的 相关 性 较 强 。 在 线 用 户 点 击 行为 的 业 随 L 的 增加 
而 趋 近 于 0， 即 h=0， 说 明 兴 趣 演化 过 程 的 随机 性 很 小 、 规 律 性 很 强 。 这 表明 ， 经 济 学 、 心 理学 等 学 科 的 研究 中 预先 假设 人 的 行 
为 具有 规律 性 ， 进 而 通过 实验 抽样 验证 ， 其 最 基本 的 前 提 假 设 和 研究 范式 是 可 信 的 。 
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图 7-4 炳 率 与 块 灶 增 益 曲 线 


从 图 7-4 可 看 出 ， 块 业 增 益 AH (L) 与 炳 率 演化 曲线 h (L) 都 近似 服从 大 律 形式 ， 块 业 增 荔 与 粒 率 及 块 长 之 间 服 从 式 (7- 
2) 所 示 的 关系 。 


AH(L)-h= AHO)~L” (7-2 ) 
其 中 a 值 在 1.3 ~ 2.4 之 间 ， 与 人 类 其 他 行为 的 研究 结论 基本 一 致 ， 例 如 ， 人 类 撰写 的 书籍 中 的 文字 序列 o 值 在 0.4 ~ 0.6 之 间 ， 


贝多 芬 的 音乐 作品 中 xs 0.75。 为 验证 在 线 兴 趣 演化 过 程 x 值 的 一 致 性 ， 对 所 有 用 户 c 值 的 分 布 进行 统计 ， 如 图 7-5 所 示 ，% 值 近似 
服从 N (1.5109，0.15982) 的 正 态 分 布 ， 对 c 值 分 布 的 正 态 性 进行 统计 检验 如 图 7-6 所 示 。 


-- o-~-N(1.5109.0.1S98- 





图 7-5 ”a 值 的 分 布 
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图 7-6 cx 值 的 正 态 性 检验 


由 于 超 粒 近 似 服 从 E (L) colog2L， 说 明 用 户 的 兴趣 演化 过 程 是 一 个 无 限 长 程 记忆 过 程 ， 超 业 E 的 值 与 块 曲 线 H (L) 高 度 
相关 。 由 以 上 分 析 可 知 ， 在 线 用 户 的 兴趣 演化 过 程 是 一 个 与 “Thue-Morse 过 程 ” 相 似 的 无 限 非 周期 性 长 程 记忆 过 程 。 


可 预测 性 分 析 。 可 预测 性 是 大 数据 研究 的 最 核心 价值 之 一 ， 是 体现 大 数据 “4V 特 征 ” 之 “Value” 属 性 的 最 重要 方面 ， 对 个 
体 行为 的 精准 预测 可 促进 定向 广告 的 投放 ， 对 集体 行为 的 预测 可 预防 非常 规 突 发 事件 ， 甚 至 有 研究 人 员 试 图 通过 大 数据 “预测 流 
感 ” 等 。 但 是 ， 传 统 大 数据 分 析 技 术 大 多 采用 机 器 学 习 算 法 从 海量 的 数据 中 挖掘 模式 ， 对 于 “用 多 少数 据 量 才能 达到 精准 预 
测 ? ”这 样 的 问题 考虑 较 少 ， 使 得 学 习 效 率 低 下 且 计 算 资 源 浪费 严重 ， 块 粹 理论 可 为 此 提供 借鉴 思路 。 


由 前 文 可 知 ， 块 粹 的 一 阶 离散 导数 AH (L) 即 为 信息 增益 ， 用 来 区 分 兴趣 演化 过 程 中 点 击 序列 分 布 的 不 同 ， 可 以 度量 点 击 序 
~ lim 


列 分 布 之 间 的 距离 ， 也 可 对 兴趣 变化 的 不 可 预测 性 进行 度量 。 由 于 兴趣 演化 的 信息 增益 :~ AH (L) =0， 说 明 随 L 变 大 ， 不 同时 
间 段 点 击 行为 之 间 的 分 布 距离 在 减 小 ， 因 此 不 可 预测 性 也 随 抉 长 度 L 的 渐 增 而 减 小 。 


图 7-7 展 示 了 块 精 的 二 阶 离散 导数 AH (L) 的 演化 曲线 ，A2H (L) 用 来 度量 兴趣 演化 过 程 中 点 击 序列 随 块 长 度 L 渐 增 而 不 可 
预测 性 减 小 的 程度 ， 称 为 预测 增益 。|A<H (L) | 的 值 越 大 ， 表 明 块 长 度 从 L-1 增 加 到 L 后 ， 减 小 的 不 确定 性 量 越 大 。 图 7-7 中 的 小 
图 是 将 原 图 放大 后 的 结果 ， 可 以 看 出 ， 兴 趣 演化 过 程 的 可 预测 性 较 强 ， 当 块 长 达到 7 时 ， 即 在 线 兴趣 点 的 连续 点 击 达到 7 个 时 ， 
其 行为 的 平均 预测 精确 度 就 可 达到 95.3% 以 上 ， 当 连续 点 击 数 达 到 14 个 的 时 候 ， 精 确 度 平均 可 达到 99% 以 上 ， 表 明 人 类 在 线 行为 
与 心理 学 中 “神奇 的 数字 7” 这 一 现象 相符 。 
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图 7-7 ”预测 增益 随 块 长 度 变 化 曲线 


块 最 大 长 度 的 选择 。 在 线 用 户 每 时 每 刻 都 可 能 产生 大 量 的 点 击 行为 ， 一 个 总 长 度 为 | 的 点 击 序列 [s]， 可 抽取 出 块 长 为 L= 
{1 ，2，.…，Max 的 块 共 |-L+1 个 ， 这 样 的 块 序列 组 合成 的 词 [W]= (wi) 1< 活 1-L+1 就 构成 了 对 长 度 为 [的 块 抽样 。 这 种 有 重 羡 的 
抽样 不 仅 是 为 了 度量 连续 兴趣 点 的 重 蔷 性 ， 还 是 为 了 度量 连续 兴趣 点 序列 内 部 的 统计 依赖 关系 。 


通常 认为 大 数据 时 代 可 以 分 析 更 多 的 甚至 是 与 事物 相关 的 所 有 数据 ， 所 以 可 以 带 来 更 全 面 的 认识 ， 可 以 使 人 们 更 清楚 地 发 现 
样本 无 法 揭示 的 细节 信息 。 对 于 数据 分 析 而 言 ， 数 据 块 L 的 最 大 长 度 Max 应 该 越 长 越 好 ， 然 而 ， 本 章 针 对 在 线 用 户 兴趣 演化 过 程 
的 研究 发 现 ， 当 前 (present) 兴趣 点 的 信息 粹 是 一 个 次 广 延 量 (sub-extensive) ， 不 仅 是 过 去 (past) 与 未 来 (future) 之 间 
的 “或 ”(or) 信息 ， 还 是 过 去 与 未 来 之 间 的 “与 ” (and) 信息 ， 兴 趣 演 化 过 程 具 有 较 强 的 相关 性 ， 因 此 分 析 所 有 数据 既 浪费 
计算 资源 还 会 对 预测 结果 产生 干扰 。 更 通俗 地 说 ， 人 类 能 对 未 来 进行 预测 正 是 因为 有 宛 余 信息 的 存在 。 在 计算 机 科学 领域 ,信息 
焊 论 能 用 于 估量 数据 压缩 比率 ， 也 正 是 由 于 对 数据 中 存在 的 元 余 信 息 的 分 析 和 衡量 。 兴 趣 演 化 过 程 具 有 较 强 的 相关 性 ， 也 正 是 
由 于 宛 余 信息 的 存在 。 因 此 大 数据 时 代 如 何 将 有 效 信息 提取 出 来 是 有 价值 的 研究 性 问题 。 


在 实际 应 用 中 ， 不 可 能 按 数 据 的 总 长 度 | 来 选择 块 长 ， 因 为 在 线 点 击 数据 是 一 个 动态 增长 的 时 间 序 列 数据 。 实 验 发 现 ， 当 块 
长 度 L 渐 增 到 一 定 程度 时 ， 块 炳 就 达到 最 大 值 并 且 不 再 保持 单调 递增 ， 而 是 处 于 平稳 或 缓慢 递减 状态 。 如 图 7-7 所 示 ， 因 此 选择 L 
过 大 ， 对 于 数据 分 析 而 言 意义 不 大 。 


根据 块 粹 理论 定量 分 析 在 线 用 户 兴趣 演化 过 程 的 研究 友 现 ， 兴 趣 的 演化 过 程 既 不 是 随机 游 走 过 程 ， 也 不 是 马尔 可 夫 过 程 ， 而 
是 一 个 兴趣 点 序列 服从 窜 律 的 无 限 非 周期 性 长 程 记忆 过 程 。 根 据 块 粹 的 二 阶 离散 导数 一 一 预测 增益 可 发 现 ， 当 兴趣 点 序列 块 长 
达到 7 以 上 时 其 行为 有 较 强 的 可 预测 性 ， 由 此 可 确定 在 线 行为 精准 预测 所 需 的 数据 长 度 理论 下 界 。 人 类 行为 学 是 一 门 复杂 的 科 
学 ， 是 经 济 学 、 心 理学 等 学 科 的 基础 ， 本 章 的 研究 是 对 用 户 在 线 兴 趣 演化 规律 所 做 的 初步 探索 ， 将 对 人 类 在 线 行为 分 析 、 建 模 和 
预测 提供 理论 指导 。 同 时 ， 该 研究 结论 可 对 在 线 产 品 推荐 、 机 器 学 习 等 技术 的 可 预测 性 ， 以 及 对 大 数据 时 代 人 类 在 线 行为 数据 分 
析 所 需 的 数据 量 理论 下 界 提供 指导 。 


[ 李 勇 ， 孟 小 峰 ， 等 .基于 小 数据 的 在 线 用 户 兴趣 长 程 演 化 研究 []] . 计算 机 研究 与 发 展 ，2015，52 (4) : 779-788 . 


7.4 ”在 线 用 户 集体 注意 力 流 门 


近 20 年 来 ， 随 着 互联 网 的 爆炸 式 发 展 ， 对 Web 的 发 展演 化 机 制 已 有 大 量 的 研究 成 果 。 这 些 研究 大 多 数 通过 静态 的 超 链 接 分 
析 来 探究 Web 系 统 的 整体 结构 以 及 Web 站 点 的 影响 力 ， 并 出 现 了 一 些 有 影响 的 研究 成 果 。 例 如 ，Broder 等 人 于 1999 年 发 现 Web 
的 结构 类 似 于 一 个 蝴蝶 结 形状 ， 也 提出 了 如 PageRank、HITS 等 有 较 大 影响 的 算法 。 然 而 ， 这 些 定量 方法 都 很 少 考虑 在 线 集体 用 
户 行为 对 Web 演 化 的 作用 。 


根据 2012 年 的 一 项 统计 显示 ， 全 球 每 秒 有 571 个 新 的 Web 站 点 建立 ， 这 个 增长 速度 还 在 不 断 被 刷新 ， 同 时 每 秒 钟 有 大 量 的 
站 点 被 淘汰 关 停 。 是 什么 因素 导致 Web 如 同一 个 生命 组 织 一 样 能 够 生长 、 变 化 乃至 死亡 呢 ? 正如 同 新 陈 代谢 理论 告诉 我 们 ， 生 
命 的 演化 需要 吸收 能 量 一 样 ， 尽 管 Web 的 发 展 离 不 开 资 本 和 电力 等 要 素 ， 但 直觉 上 这 些 都 不 是 其 发 展演 化 的 核心 动力 (能 
量 ) 。Web 演 化 所 需 的 “能 量 ”是 什么 ”站 点 能 人 否 基于 这 个 “能 量 ” 产生 在 整个 Web 上 的 宏观 影响 力 ? 


如 图 7-8 所 示 ， 我 们 猜测 Web 演 化 的 动力 就 是 由 干 百 万 个 体 用 户 组 成 的 在 线 集体 用 户 的 注意 力 流 ， 并 由 此 产生 站 点 的 宏观 影 
响 力 。 为 证 实 这 一 假设 ， 我 们 借鉴 生态 学 中 的 新 陈 代谢 理论 ， 采 用 类 比 和 实证 数据 验证 这 一 猜测 。 





图 7-8 注意 力 流 作为 Web 演 化 的 “能 量 ” 


注意 力 流 定 义 为 一 个 在 线 用 户 对 一 系列 Web 页 面 有 序 的 点 击 行为 。 本 节 采 用 了 CNNIC 提 供 的 30000 多 名 志愿 者 用 户 每 日 在 
线 “ 冲 浪 ” 行 为 数据 的 样本 ， 这 些 在 线 行为 数据 被 称 为 大 数据 时 代 的 “小 数据 ” (small data) ”( 注 : 这 里 “small data” 特 指 
在 线 用 户 行为 数据 ， 而 不 是 数据 量 “small” 的 数据 ) 。 基 于 加 权 复 杂 网 络 方法 研究 了 注意 力 流 网 络 ， 并 结合 如 图 7-9 所 示 的 生态 
学 中 有 关 新 陈 代 谢 理论 的 Kleiber 律 ， 研 究 Web 站 点 的 新 陈 代谢 率 ， 分 析 集 体 注意 力作 为 能 量 如 何 流入 Web 站 点 ， 又 如 何 耗 散 并 
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图 7-9 ”新 陈 代谢 理论 中 的 Kleiber 律 
[1] Li Y, Zhang J, Meng X, et al. Quantifying the Influence of Websites Based on Online Collective Attention Flow [J] . Journal of 
Computet Science and Technology (JCST) , 2015, 30 (6) : 1175-1187. 


7.4.1 注意 力 流 网 络 


首先 将 每 个 用 户 点 击 页 面 的 时 间 埠 和 地 址 信息 按时 间 | 顺序 提取 出 来 ， 然 后 将 页 面 信息 转换 成 域名 信息 ， 得 到 用 户 注意 力 从 一 
个 站 点 到 另 一 个 站 点 的 转换 序列 。 建 立 如 图 7-10 所 示 的 注意 力 流 网 络 ， 用 图 G 表 示 ， 其 中 节点 “source” 和 “sink” 分 别 表示 注 
意 力 流 的 “ 源 " 和 “ 汇 ” 。 
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图 7-10 ”注意 力 流 网 络 


将 有 向 图 G 转 换 成 带 权 矩阵， 矩阵 中 的 元 素 表示 从 站 点 和 到 站 点 j 的 注意 力 流 强度 。 由 和 矩阵 产生 图 G 上 的 马尔 可 夫 概 率 转移 矩阵 
P 并 得 到 fundamental 矩 阵 U， 如 式 (7-3) 所 示 : 


U=0-P "Ti+P4+P4 Sp! (7:3) 
k=0 


定义 一 个 向 量 Ti， 表 示 和 集体 用 户 在 站 点 i 上 的 总 浏览 时 间 (以 秒 为 单位 ) 。 由 于 注意 力 流 网 络 是 平衡 的 ， 只 需 计 算 一 个 节点 
的 入 流 或 出 流 即 可 。 给 定 站 点 i 的 流入 或 流出 的 注意 力 流 强度 Ai 计算 如 式 (7-4) 所 示 : 


7 十 1 
坊 Dp ViE [1,n] (7-4) 
定义 站 点 影响 力 C} 为 式 (7-5) 
Woj Uji 于 
和 (7-5 ) 
= YM 
Uj 产 1 


基本 变量 A 和 (人 C 靖 考 了 生态 学 中 评估 食物 链 网 络 中 新 陈 代谢 率 的 方法 。 


7.4.2 ”注意 力 流 网 络 中 的 异 速 标 度 律 


将 站 点 的 影响 力 Ci、 注 意 力 停留 总 时 间 Ti 以 及 站 点 注意 力 流 的 流 强度 A 这 三 个 变量 对 应 的 数据 画 在 一 个 双 对 数 坐 标 系 中 ， 发 
现 数据 的 分 布 呈 现 出 一 定 的 规律 ， 如 图 7-11 和 图 7-12 所 示 。 





图 7-11 站 点 的 影响 力 Ci 和 注意 力 停留 总 时 间 Ti 之 间 的 标 度 关系 
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图 7-12 流 强度 Ai 与 站 点 的 宏观 影响 力 Ci 之 间 的 标 度 关系 
在 双 对 数 坐 标 系 中 ，Cj0Ti 之 间 的 关系 拟 合 的 直线 斜率 约 为 0.39， 说 明 这 两 个 变量 之 间 的 关系 近似 于 一 个 客 律 关系 ， 如 式 
(7-6) 所 示 : 


C; oo KTH ( 7-6 ) 


k 为 标准 化 常量 ， 类 似 于 如 图 7-9 所 示 的 Kleiber 律 。 由 于 指数 <1， 表 明 C 和 Ti 之 间 是 一 种 亚 线性 关系 。 我 们 的 直觉 一 般 会 认 
为 “一 个 站 点 吸引 用 户 的 生命 时 间 越 大 ， 则 站 点 的 影响 力 就 会 越 大 ”， 然 而 ， 研 究 结果 却 表 明 ， 对 于 大 部 分 站 点 ， 通 过 延长 用 户 
停留 时 间 并 不 能 完全 带 来 站 点 影响 力 的 提升 。 

如 果 把 C 赴 作 其 新 陈 代谢 率 (metabolism rate) ， 把 Ti 看 作 体 量 (body-mass) ， 由 于 A<1， 则 每 单位 能 量 产生 的 影响 力 
(Ci 随 体 量 的 增 大 而 减少 ， 说 明 大 的 Web 站 点 比 小 站 点 能 更 有 效 地 利用 吸收 到 的 用 户 生命 时 间 。 另 一 方面 ， 由 于 每 单位 T 所 能 
产生 的 C 随 吸收 到 的 用 户 生命 时 间 的 增 大 而 减少 ， 表 明 小 型 Web 站 点 可 以 在 一 定 程度 上 通过 吸引 眼球 的 方式 获得 一 定 的 影响 
力 ， 但 大 型 Web 站 点 则 无 法 依靠 用 户 的 停留 时 间 维持 其 影响 力 。 


流 强 度 A 注 站 点 的 宏观 影响 力 Cj 之 间 的 标 度 关系 如 图 7-12 所 示 ， 如 同 另 一 个 Web 版 的 Kleiber 律 ， 如 式 (7-7) 所 示 : 


C; oo kAS (ey) 


外 数 B=1.15>1， 表 明 人 A 与 Ci 之 间 是 一 个 超 线 性 关系 ， 生 态 学 中 将 这 一 现象 称 为 加 速生 长 。 


图 7-12 表 明 ， 如 果 一 个 站 点 能 从 其 他 站 点 获得 更 多 的 转移 而 来 的 注意 力 流 ， 则 该 站 点 在 整个 Web 中 的 宏观 影响 力 将 更 强 。 
同时 ， 由 于 B>1,， 将 A 与 Cj 之 间 的 关系 进行 差分 之 后 会 发 现 ， 大 站 点 需要 较 少 的 注意 力 流 就 可 维持 其 在 Web 上 的 影响 力 。 


7.4.3 注意 力 流 的 应 用 : Web 站 点 排名 


根据 站 点 影响 力 C 的 值 可 以 对 站 点 在 整个 Web 上 的 宏观 影响 力 进行 排名 ， 见 表 7-2 ( 注 : 数据 是 2012 年 8 月 的 ) 。 


表 7-2 ”站 点 排名 (根据 Ci 的 值 ) 


排 名 站 点 域名 
1 baidu.com 
2 qq.com 
3 taobao.com 
二 sogou.com 
( 续 ) 
排 名 站 点 域名 
5 hao123.com 
6 sina.com 
多 Welbo.com 
8 360.cn 
9 sohu.com 
10 163.com 
11 youku.com 
12 tmall.com 
13 renren.com 
14 SOs0.com 
15 alipay.com 


为 了 证 明 注 意 力 流 模型 的 有 效 性 ， 我 们 利用 常用 的 超 链 接 分 析 方 法 作对 比 。 已 有 文献 报道 了 祝 建华 等 人 通过 “有 拒 取 ”获得 
2006 年 1 月 到 2 月 间 中 国 830MB 的 Web 页 面 数 据 ， 并 基于 这 些 数 据 对 中 国 Web 整 体 状 况 进 行 分 析 。 他 们 动用 了 50 多 台 并 行 服务 
器 ， 并 花费 了 超过 一 年 的 时 间 。 表 7-3 是 这 两 种 方法 的 对 比 ， 从 三 方面 进行 比较 : @ 超 链接 模型 需 他 取 海 量 Web 页 面 数据 ， 注 意 
力 流 模型 仪 需 收集 在 线 用 户 点 击 流 的 样本 数据 ;，@ 超 链接 模型 需要 大 量 机 器 来 怜 取 和 分 析 数 据 ， 而 注意 力 流 模 型 仪 需 一 台 PC 或 
服务 器 即 可 ; @ 两 种 分 析 模 型 所 耗费 的 时 间 差 别 也 很 大 。 


表 7-3 ”两 种 评估 模型 的 比较 


所 需 数据 所 需 设 备 分 析 时 间 
注意 力 流 模型 在 线 集体 用 户 点 击 数据 (small data ) PC/ 服务 需 数 天 
超 链接 模型 息 取 的 Web 页 面 超 链接 数据 (big data ) 数 月 





由 分 析 可 知 ， 如 果 一 个 站 点 要 在 整个 Web 中 获得 较 大 的 宏观 影响 力 ， 最 核心 的 任务 是 从 其 他 站 点 上 吸引 大 量 的 用 户 将 注意 
力 转 移 到 该 站 点 上 。 因 此 ， 站 点 内 容 的 新 颖 性 、 创 新 性 、 更 新 的 频率 、 贴 近 用 户 日 常生 活性 等 因素 是 站 点 影响 力 中 最 核心 的 因 


我 们 的 研究 表明 ， 站 点 的 影响 力 C 注 集体 用 户 注意 力 停留 总 时 间 Ti 以 及 站 点 注意 力 流 强 度 之 间 存 在 类 似 于 图 7-9 的 Kleiber 
律 ， 说 明 人 类 创造 的 最 大 人 工 物 一 Web 系 统 同样 受 自 然 界 普 适 的 新 陈 代谢 规律 制约 。 “复杂 世界 ， 简 单 规则 ”这 一 系统 科学 
和 复杂 性 科学 的 规律 再 一 次 得 到 验证 。 


通过 与 生态 系统 的 新 陈 代谢 规律 类 比 ， 以 及 实证 数据 分 析 ， 我 们 认为 Web 发 展 所 需 的 “能 量 ”就 是 计算 机 前 无 数 个 用 户 组 
成 的 集体 用 户 的 注意 力 ， 吸 引 的 注意 力 流 越 强 ， 站 点 影响 力 越 大 。 


7.5 “在线 用 户 集体 注意 力 流 的 普 适 模式 


如 果 把 Web 看 作 一 个 虚拟 生命 组 织 ， 根 据 新 陈 代 谢 理论 ，Web 站 点 必须 吸收 “能 量 ” 进行 生长 、 繁 衍 和 发 展 。 本 章 感 兴趣 
的 是 如 下 两 个 问题 : @@Web 演 化 的 “能 量 ” 来 自 哪里 ”@ 这 种 “能 量 ” 的 普 适 模式 是 什么 ”我 们 猜测 Web 站 点 的 存活 和 发 展 依 
赖 于 在 线 集体 用 户 的 注意 力 流 。 基 于 这 种 假设 ， 本 章 推断 在 生态 学 的 能 量 流 中 发 现 的 普 适 模式 也 适用 于 在 线 集体 用 户 的 注意 力 
流 。 事 实 上 ， 生 态 学 的 能 量 流 模型 不 仅 对 食物 链 网 络 有 效 ， 而 且 也 是 研究 Web 动 力学 的 一 个 有 效 工 具 ， 因 为 任何 系统 都 需要 资 
源 来 生存 ， 如 商品 流 、 物 资 流 、 能 量 流 等 ，Web 系 统 也 不 能 例外 。 


赫 伯 特 .西蒙 [1] 曾 指出 : “信息 的 丰富 使 得 注意 力 变 得 稀少 ”， 随 着 信息 的 过 载 与 注意 力 的 相对 荐 乏 ， 在 不 远 的 将 来 注意 力 
将 扮演 一 个 越 来 越 重要 的 角色 。 我 们 的 研究 也 表明 ， 在 线 集体 用 户 的 注意 力 流 可 用 于 定量 研究 Web 站 点 的 影响 力 ， 并 且 是 站 点 
评估 和 排名 的 一 个 有 效 工 具 。 但 是 ， 迄 今 为 止 人 们 还 不 知道 在 线 集体 注意 力 流 有 什么 样 的 普 适 模式 和 产生 这 些 模 式 的 内 在 机 制 | 
因此 ， 研 究 集体 注意 力 流 在 海量 的 信息 源 之 间 的 分 配 模式 以 及 用 户 行为 对 Web 演 化 的 影响 至 关 重 要 。 


最 近 几 年 ， 结 合 统计 物理 以 及 图 论 等 理论 ， 在 大 量 的 加 权 网 络 上 发 现 了 一 系列 普 适 模式 ， 这 些 已 被 研究 的 网 络 包括 新 陈 代谢 
网 络 、 世 界 贸 易 网 络 、 论 文 引 文 网 络 、 技 术 网 络 、 复 杂 动 态 网 络 等 。 发 现 的 普 适 模式 有 : 生态 系统 中 的 异 速 标 度 律 、 网 络 中 节点 
权重 的 长 尾 分 布 、 网 络 中 节点 的 出 度 和 入 度 窜 律 指数 之 间 存 在 的 线性 关系 、 资 源 分 配 网 络 中 强度 与 节点 度 之 间 的 窘 律 相关 性 。 基 
于 这 些 网 络 模型 以 及 发 现 的 普 适 模 式 ， 提 出 了 多 个 数学 模型 来 解释 这 些 现象 ， 如 通用 模型 、 流 量 驱动 演化 模型 、 互 选择 模型 和 时 
变 复 杂 动 态 网 络 模型 等 。 然 而 ， 这 些 模式 以 及 数学 模型 都 很 少 考虑 Web 与 用 户 之 间 长 期 的 、 复 杂 的 交互 因素 对 这 些 普 适 现象 的 
影响 。 然 而 ， 已 有 的 研究 都 聚焦 于 单个 站 点 ， 特 别 是 电子 商务 网 站 ， 所 研究 的 数据 是 以 站 点 为 中 心 的 ， 不 包含 用 户 在 整个 Web 
上 不 同 站 点 间 的 连续 浏览 数据 ， 因 此 ， 这 样 的 研究 只 是 针对 用 户 在 线 微观 行为 ， 无 法 用 以 深入 探讨 在 线 集体 注意 力 动 力学 中 的 普 
适 模式 。 


表 7-4 给 出 了 6 个 与 注意 力 流 网 络 中 节点 权重 相关 的 基本 变量 定义 ， 以 方便 研究 在 线 集体 注意 力 与 Web 的 协同 演化 中 的 普 适 
模式 。 


表 7-4 ”变量 的 符号 表示 及 定义 


ea 


符 号 定 这 
量 


4 流 经 给 定 站 点 i 的 总 注意 力 流量 

了 特定 时 间 范 围 内 所 有 用 户 在 站 点 i 上 的 总 停留 时 间 

P; 特定 时 间 范 围 内 集体 用 户 在 节点 i 上 的 页 面 总 浏览 量 
D; 入 点 i 的 度 

I 广 点 7 来 自 “source” 节 点 的 总 入 流量 

H; 入 点 7 流向 “sink” 节 点 的 总 出 流量 


[1 赫 伯 特 : 西蒙 (Herbert Simon，1916 一 2001) ，1975 年 图 灵 奖 获得 者 ，1978 年 诺 贝尔 经 济 学 奖 获得 者 。 


7.5.1 “ 异 速 标 度 律 


为 了 寻找 注意 力 流 网 络 中流 强 度 A 汪 节点 度 Dj 之 间 的 关系 ， 将 这 两 个 变量 对 应 的 数据 点 放 在 一 个 双 对 数 坐 标 系 中 ， 如 图 7- 
13a 所 示 ， 拟 合 的 结果 接近 一 条 直线 ， 且 解释 性 方差 R* 为 0.90， 说 明 A 的 值 取 对 数 后 与 D 的 值 取 对 数 后 两 者 接近 线性 关系 ， 这 说 
明 人 A 与 D 满 足 窜 律 关系 ， 如 式 (7-8) 所 示 : 


A;: DY (7-8 ) 
其 中 k 是 一 标准 化 常量 ， 指 数 a 是 需要 估计 的 参数 ， 通 常 将 标准 化 常量 k 忽 略 ， 则 式 (7-8) 被 写 为 式 (7-9) : 
Mi DE (7-9 ) 
在 本 章 的 实证 数据 中 ，a=1.33。 式 (7-6) 可 看 作 Web 版 的 异 速 标 度 律 ， 通 过 指数 cx 可 以 确定 注意 力 流 强度 Ai 上 与 节点 度 Di 之 
间 的 标 度 关 系 ， 本 章 得 到 的 a 值 大 于 1 表明 A 与 Dj 之 间 是 超 线 性 关系 ， 在 生态 学 中 ， 这 种 现象 也 被 称 为 加 速生 长 。 这 两 个 变量 之 


间 的 超 线性 关系 也 表明 ， 在 注意 力 流 网 络 中 核心 节点 (站 点 ) 具有 最 大 的 节点 度 和 注意 力 流 强 度 。 在 图 7-13c 中 ， 同 样 发 现 了 加 
速生 长 现象 ， 如 式 (7-10) 所 示 : 


Te RY (TT ) 


表明 站 点 可 以 通过 更 多 的 页 面 浏 览 量 将 用 户 的 生命 时 间 (注意 力 ) 锁定 在 该 站 点 上 ， 浏 览 的 页 面 越 多 ， 吸 引 能 力 越 强 。 


同时 ， 在 注意 力 流 网 络 中 还 发 现 了 亚 线 性 关系 ， 如 图 7-13b 所 示 ， 本 章 发 现 流 强 度 Ai 与 站 点 上 页 面 总 浏览 量 Pi 之 间 存 在 关系 
如 式 (7-11) 所 示 : 


Ai: Pe™ (7-11) 
此 外 ， 解 释 性 方差 R* 大 于 0.8， 说 明 这 一 现象 比较 显著 。 这 里 的 指数 值 为 0.73， 其 小 于 1， 在 生态 学 上 这 一 现象 称 为 “减速 生 


长 ”。 人 们 一 般 会 认为 “一 个 站 点 浏览 的 页 面 越 多 ， 则 站 点 的 注意 力 流 强 度 就 会 越 大 ”， 但 这 里 的 指数 小 于 1 意味 着 增多 的 页 面 
浏览 量 并 不 会 完全 带 来 流 强 度 的 增加 ， 即 在 网 络 上 人 们 的 常识 往往 与 实证 研究 的 结果 并 不 相符 。 
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c) 拟 合 结果 





图 7-13 ”注意 力 流 网 络 中 的 异 速 标 度 律 


7.5.2 厅 散 律 


生态 学 的 研究 发 现 ， 能 量 在 整个 生态 系统 中 循环 时 大 部 分 都 会 耗 散 到 环境 中 。 耗 散 过 程 有 不 同 的 形式 ， 如 呼吸 或 排泄 都 会 带 
走 能 量 。 在 复杂 系统 中 ， 所 有 的 开放 系统 都 需要 耗 散 能 量 到 环境 中 以 维持 生存 、 繁 衍 和 演化 。 为 维持 平衡 状态 ， 复 杂 系 统 不 但 需 
要 吸收 能 量 以 增加 其 负 粹 ， 而 且 必 须 减 少 随时 间 变 化 而 自然 增加 的 正 粹 ， 这 种 正 粹 是 复杂 系统 生存 和 演化 所 不 可 缺少 的 。 


正如 著名 物理 学 家 薛 [1] 定 谓 指 出 的 : “生命 赖 负 炳 为 生 。， 有 机 体 就 是 赖 负 炳 即 信息 为 生 。 本 章 将 在 线 集体 用 户 的 注意 力 流 
看 作 Web 演 化 的 能 量 ，Web 系 统 的 发 展 过 程 ， 如 生存 、 生 长 、 繁 行 、 死 亡 等 过 程 都 由 在 线 集体 注意 力 流 所 主宰 。Web 上 的 信息 
(或 内 容 ) 会 随 着 时 间 演 变 逐 渐 过 时 ， 不 再 为 用 户 所 关注 ， 这 种 现象 可 看 作 随 时 间 演 变 而 产生 的 正 业 ; Web 系 统 通 过 从 外 部 环 
境 吸 收集 体 用 户 的 注意 力 流 ， 改 进 页 面 过 时 的 内 容 从 而 产生 钢 ， 以 抵消 随时 间 演 变 产 生 的 正 粹 ， 保 证 Web 系 统 维持 平衡 状 


六 


/Do 


基于 能 量 流 (注意 力 流 ) 耗 散 的 视角 ， 如 图 7-10 所 示 ，Web 站 点 的 注意 力 流 从 “source” 节 点 或 其 他 站 点 流入 ， 然 后 耗 散 
到 “sink” 节 点 ， 耗 散 掉 的 注意 力 流 可 以 由 变量 H 艾 得。 直觉 上 ， 一 个 站 点 具有 较 强 的 黏 性 ， 即 能 吸引 集体 用 户 的 停留 时 间 


(Ti) 越 多 ， 其 耗 散 就 越 小 ， 这 种 现象 可 由 式 (7-12) 表示 : 
Vo (Ri 


其 中 ，k 和 了 是 需要 估计 的 参数 ， 式 (7-12) 即 为 本 章 研究 得 到 的 耗 散 律 。 如 图 7-14a 所 示 ， 参 数 B 的 值 为 0.81 小 于 1， 解 释 
性 方差 R2 为 0.85， 实 证 数据 支持 了 我 们 的 猜想 。 注 意 : Ee (7-12) 是 一 个 亚 线性 模式 ， 即 耗 散 率 〈 即 单位 
黏度 T 耗 散 的 Hi) 随 停留 时 间 的 增 大 保持 在 一 个 较 低 的 水 平 ， 这 意味 着 站 点 的 黏 性 越 强 ， 耗 散 就 越 小 。 


在 图 7-14 中 ， 变 量 Ti 和 Hi 具有 相似 的 DGBDI 分 布 ， 我 们 猜测 和 Hi 之 间 应 该 有 一 定 的 联系 ， 如 图 7-14b 所 示 ， 实 证 数据 支持 
了 这 一 猜测 : Hi: kl 了 ，B=0.96~x1。 这 表明 一 个 站 点 的 耗 散 流 与 来 自 于 “source” 节 点 的 入 流 近似 于 线性 关系 。 这 一 模式 还 进 


一 步 表 明 ， 当 一 个 站 点 获得 较 大 的 来 自 于 其 他 站 点 转移 而 来 的 注意 力 流 ( 即 来 自 非 “source” 节 点 的 注意 力 流 ) 时 ， 其 耗 散 流 
较 小 。 
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图 7-14 注意 力 流 网 络 中 的 耗 散 律 
[1 薛 定 请 (Erwin Schr6dinger，1887 一 1961) ， 奥 地 利 物 理学 家 ， 量 子 力学 黄 基 人 之 一 ，1933 年 荣获 诺 贝 尔 物 理学 奖 。 
四 DGBD 是 一 个 具有 两 个 参数 的 针对 有 序数 据 的 分 布 模型 ， 不 需要 给 定 经 验 密度 函数 。DGBD 具 有 出 色 的 拟 合 性 能 ， 可 以 应 用 于 
多 个 不 同 的 学 科 。 


7.5.3 引力 律 


在 经 典 物 理学 中 ， 和 牛顿 万 有 引力 定律 告诉 我 们 ， 任 意 两 个 天 体 间 都 存在 相互 吸引 的 力 gj， 这 里 gj=kmimyr2， k 是 万 有 引力 
常数 ，m 和 mj 表示 天 体 的 质量 ，r 表 示 两 者 之 间 的 距离 。 近 年 来 ， 研 究 人 员 在 经 济 学 以 及 复杂 性 科学 中 也 发 现 了 “引力 律 " 
模型 。 例 如 ， 在 城市 之 间 的 交通 流 以 及 国 与 国之 间 的 贸易 流 中 就 发 现 了 这 个 模式 。 


尽管 我 们 已 研究 了 在 线 注 意 力 流 网 络 中 的 基本 变量 之 间 的 相关 关系 及 其 耗 散 特性 ， 但 我 们 还 不 知道 注意 力 流 在 不 同 Web 站 
点 间 是 如 何 分 布 的 。 本 章 发 现 ， 两 个 站 点 放 j 之 间 的 注意 力 流 流量 Wi 与 基本 变量 之 间 的 关系 满足 式 (7-13) : 


MAAY 


Wi OS (7-13 ) 
DE 


其 中 k 表 示 常 数 ，A 和 Aj 是 站 点 j 和 j 的 流 强 度 ，Di 和 Dj 是 两 个 站 点 的 节点 度 ，Y 是 需要 估计 的 指数 。 图 7-15 展 示 了 注意 力 流 网 


络 中 的 “引力 律 ” 以 及 参数 ， 由 解释 性 方差 R2= 0.89 表 明 这 一 模式 比较 显著 。 


W; x(D D j) 
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(4 1» 4A)) 
图 7-15 注意 力 流 网 络 中 的 引力 律 
本 章 进一步 对 其 他 变量 进行 分 析 拟 合 ， 发 现 集体 用 户 在 线 停留 时 间 T 的 y 值 为 0.58， 其 解释 性 方差 R2=0.75; 页 面 总 浏览 量 


P 的 y 值 为 0.74， 其 解释 性 方差 R2=0.83。 通 过 引力 律 ， 可 以 对 两 个 站 点 间 的 集体 用 户 注意 力 的 关联 模式 进行 预测 ， 这 对 在 线 广 


告 的 精准 投放 具有 指导 意义 。 


7.5.4 Heaps 律 


在 印 - 欧 语系 的 自然 语言 处 理 中 ，Heaps 律 是 一 个 常见 的 模式 ， 即 一 篇 文章 中 可 区 分 的 单个 单词 数量 与 该 文章 的 总 字数 长 度 
之 间 呈 现 一 种 亚 线性 关系 。 这 一 现象 在 在 线 资源 数量 分 析 中 也 被 发 现 ， 如 在 线 标签 数量 以 及 Web 页 面 的 搜索 数量 都 与 页 面 上 的 
总 字数 之 间 有 这 种 亚 线性 关系 。 在 程序 设计 语言 ， 如 Java、5C 以 及 C++ 等 语言 中 也 发 现 了 Heaps 律 。 


然而 ， 就 我 们 所 知 ， 迄 今 还 没有 在 线 集体 行为 中 有 关 Heaps 律 的 报道 。 对 用 户 注意 力 流 在 不 同 Web 站 点 间 的 转移 而 产生 的 


页 面 数 (PV) 和 可 区 分 的 单独 站 点 数 (Ns) 之 间 的 天 系 进行 分 析 ， 发 现 两 者 符合 Heaps 律 ， 如 图 7-16 所 示 。 





— y=0.78, R* = 1.00 
10- 10- 10" 10” 10° 10" 
pV 


图 7-16 ”注意 力 流 网 络 中 的 Heaps 律 
p 


此 外 ,我 们 也 发 现 pv 与 Ns 之 间 的 关系 如 式 (7-14) 所 示 : 


Ns : PV? ( FT4, ) 


由 实证 数据 可 得 6=0.78， 且 解释 性 方差 R2= 1.00， 说 明 页 面 数 和 可 区 分 的 单独 站 点 数 之 间 完 全 符合 亚 线性 关系 。DGBD 分 布 
的 指数 a 与 Zipf 律 的 指数 相同 ，Zipf 律 和 Heaps 律 是 复杂 系统 中 经 常 共同 出 现 的 两 个 普 适 模式 ， 已 有 研究 表明 ，Heaps 律 可 以 看 
作 Zipf 律 派生 的 一 种 现象 ， 但 Zipf 律 却 不 能 由 Heaps 律 派生 出 ， 但 是 我 们 并 不 清楚 产生 这 一 关系 的 内 在 机 制 是 什么 ， 也 不 能 完 
得 出 结论 即 认为 在 线 注意 力 流 中 的 Heaps 律 指数 完全 依赖 于 Zipf 律 。 我 们 猜测 ， 是 由 于 人 类 的 记忆 效应 和 在 线 行为 的 爆发 性 等 因 


素 导致 了 这 一 现象 ,但 这 还 需 进 一 步 的 深入 研究 。 


7.6 小 结 


社会 计算 作为 一 种 数据 密集 型 研究 范式 ， 在 收集 和 分 析 数 据 的 广度 、 深 度 以 及 规模 上 都 产生 了 巨大 影响 ， 其 广阔 的 研究 内 容 
与 应 用 引起 了 学 术 界 和 工业 界 的 广泛 关注 。 本 章 利用 在 线 用 户 行为 大 数据 ， 分 析 在 线 用 户 点 击 行为 的 随机 性 和 记忆 性 特征 。 研 究 


发 现 ， 与 常见 的 假设 不 同 ，Web 用 户 的 行为 并 不 是 一 个 简单 的 马尔 可 夫 过 程 ， 而 是 一 个 符合 虞 律 的 非 周 期 无 限 长 程 记忆 过 程 。 
进一步 研究 发 现 ， 用 户 在 线 连续 点 击 7 个 兴趣 点 ， 其 行为 的 平均 预测 增益 就 可 达到 95.3% 以 上 ， 可 为 大 数据 时 代用 户 兴趣 精准 预 
测 提 供 数 据 长 度 的 理论 下 界 。 


本 章 将 万 维 网 看 作 一 个 虚拟 生命 组 织 ， 其 生存 和 发 展 依赖 于 在 线 集体 注意 力 流 ， 在 这 个 视角 下 ， 通 过 大 量 在 线 个 体 用 户 
的 “冲浪 数据 ”构造 了 一 个 加 权 注 意 力 流 网 络 ， 包 含 用 户 点 击 过 的 站 点 域名 、 在 一 个 站 点 上 的 停留 时 间 和 注意 力 流 的 强度 等 细节 
祝 息 。 研 究 了 注意 力 流动 与 Web 演 化 的 动力 学 规律 ， 为 Web 站 点 的 排名 提出 了 一 个 比 传统 页 面 链接 算法 (例如 PageRank 算 法 
等 ) 更 有 效 、 更 实用 的 算法 ; 同时 还 发 现 ，Web 站 点 与 集体 用 户 注意 力 流 之 间 存 在 异 速 标 度 率 、 耗 散 率 和 引力 律 等 动力 学 规 
律 ， 加 深 了 对 Web 演 化 规律 的 认识 ， 丰 富 了 Web 大 数据 研究 内 容 。 注 意 力 流 模 型 具有 潜在 的 应 用 价值 ， 如 在 线 广告 精准 投放 、 
站 点 排名 、 将 站 点 用 一 个 高 维 空间 模型 几何 表示 、 展 示 用 户 和 Web 站 点 间 的 交互 作用 等 。 


我 们 的 研究 存在 一 些 不 足 ， 首 先是 数据 上 的 不 足 ， 所 用 到 的 数据 只 包含 中 国 的 30000 多 名 志愿 者 在 线 行为 的 样本 数据 ， 数 据 
的 代表 性 及 数据 量 都 很 有 限 ， 但 本 章 的 研究 方法 及 结论 可 方便 地 扩展 到 大 规模 数据 集 ， 因 为 从 集体 行为 的 视角 来 研究 可 避免 统计 
抽样 上 的 不 足 。 其 次 ， 本 章 仅 展示 了 实证 研究 中 发 现 的 多 个 普 适 模式 ， 在 理论 模型 和 模式 的 产生 机 制 上 都 没有 深入 研究 ， 这 将 是 
未 来 进一步 要 做 的 工作 。 


附录 ”大 数据 思考 


附录 A ”大 数据 与 小 数据 


过 去 的 一 年 里 ， 大 数据 依然 不 分 青红皂白 地 火热 ， 到 处 是 “锣鼓 喧 天 (大 数据 论坛 ) ” “鼓乐 齐 鸣 (大 数据 政策 ) ” “开业 
大 吉 (大 数据 学 院 、 中 心 ) ”以 及 “跑马 圈 地 (学 会 、 项 目 ) ”。 最 近 我 在 翻译 克 莉 丝 汀 上 伯 格 曼 的 著作 《大 数据 ， 小 数据 ,无 
数据 》， 有 些 感悟 。 “数据 (data) ”这 一 概念 虽然 最 近 才 流行 起 来 ， 但 它 并 不 是 一 个 新 术语 。 其 实 “ 数 据 ” 这 一 术语 的 使 用 
已 是 第 五 个 世纪 了 ,但 至 今 仍 没有 一 个 公认 的 定义 。 克 莉 丝 汀 L' 伯 格 曼 认 为 数据 既 不 是 客观 事物 ， 也 不 是 带 有 自身 特征 的 自然 对 
象 ， 它 只 是 对 客观 对 象 中 某 些 可 观测 到 的 现象 的 描述 ， 这 些 描述 会 因 人 而 异 、 因 地 而 异 和 因 时 而 异 。 如 何 把 客观 事物 概念 化 为 数 
据 ， 就 是 大 数据 的 本 质 。 


三 年 前 ， 应 《计算 机 研究 与 发 展 》 编 辑 部 之 约 ， 我 撰写 了 《大 数据 管理 : 概念 、 技 术 与 挑战 》 (计算 机 研究 与 发 
展 ，2013，50 (1) : 146-169) 一 文 。 论 文 前 述 了 在 大 数据 时 代 ， 数 据 从 简单 的 处 理 对 象 开始 转变 为 一 种 基础 性 资源 ， 大 数据 
的 规模 效应 给 数据 存储、 管理 以 及 数据 分 析 带 来 了 极 大 的 挑战 ， 数 据 管 理 方式 上 的 变革 正在 酝酿 和 发 生 ; 在 剖析 大 数据 基本 概念 
的 基础 上 ， 阐 述 大 数据 处 理 的 基本 框架 ， 并 就 云 计算 技术 对 于 大 数据 时 代数 据 管理 所 产生 的 作用 进行 分 析 ; 最 后 归纳 总 结 大 数据 
时 代 所 面临 的 挑战 。 这 篇 文章 发 表 后 引起 了 极 大 的 关注 ， 在 CNKI 的 下 载 达 7 万 余 次 ， 其 引用 创 《 计 算 机 研究 与 发 展 》 历 史 新 高 。 
研发 编辑 部 最 近 组 织 编 委 评选 2011 ~ 2015 年 度 五 年 优秀 论文 ， 本 文 被 评 为 三 篇 优秀 论文 之 一 。 


源 于 近 十 年 在 云 计算 和 大 数据 管理 方面 的 积累 ， 实 验 室 本 年 度 先 后 获得 了 多 项 国家 重大 研发 项 目的 支持 。 实 验 室 于 2016 年 7 
月 获得 国家 重点 研发 计划 “ 云 计 算 和 大 数据 ”专项 项 目 “ 科 学 大 数据 管理 系统 ”的 资助 ， 重 点 研究 天 文大 数据 万 亿 级 数据 实时 分 
析 和 微生物 大 数据 百 亿 级 数据 融合 和 人 交互 分 析 ， 期 望 通过 以 上 数据 管理 及 分 析 技 术 的 研究 ， 帮 助 科学 家 从 大 数据 中 挖掘 宝贵 的 财 
富 ， 为 天 文学 、 微 生物 学 等 前 沿 领 域 的 重大 突破 提供 线索 ， 并 期 望 革命 性 的 新 发 现 。 实 验 室 于 2016 年 12 月 获得 国家 自然 科学 基 
金 重大 研究 计划 “大 数据 驱动 的 管理 与 决策 研究 ”重点 项 目 “ 大 数据 开放 与 治理 中 的 隐私 保护 关键 技术 研究 ”的 资助 。 本 项 目 以 


大 数据 集成 与 融合 、 查 询 与 分 析 、 发 布 与 共享 带 来 的 隐私 问题 为 切入 点 ， 提 出 了 大 数据 隐私 保护 框架 ， 具 体 包括 隐私 风险 监测 与 
评 佑 技术、 隐私 主 动 保护 技术 、 查 询 隐 私 保护 技术 、 基 于 数据 溯源 的 问 责 技术 等 。 研 究 成 果 将 用 于 搭建 大 数据 管理 与 决策 下 的 隐 
私 保护 原型 系统 ， 并 以 移动 应 用 领域 为 示 学 ， 以 验证 所 提出 保护 机 制 与 模型 在 真实 数据 上 的 有 效 性 与 高 效 性 。 通 过 本 项 目 研究 可 
以 为 大 数据 隐私 保护 技术 进一步 深入 研究 与 应 用 提供 理论 方法 、 技 术 支 撑 与 新 的 思路 。 


在 学 术 活动 方面 ， 积 极为 学 术 同 行 提供 力所能及 的 服务 和 贡献 是 本 实验 室 的 一 贯 风格 。 具 体 来 讲 依据 我 们 在 大 数据 管理 技术 
方面 的 积累 ， 参 与 组 织 了 如 下 的 学 术 产 品 和 学 术 交 流 : 


首先 ， 实 验 室 在 本 年 度 组 织 了 两 期 与 大 数据 有 关 的 专题 。2016 年 2 月 在 《计算 机 研究 与 发 展 》 组 织 了 “数据 融合 与 知识 融 
合 ”专题 ( 孟 小 峰 、 王 建 筋 、 董 欣 ) ， 侧 重大 规模 数据 和 知识 的 抽取 、 融 合 及 应 用 等 诸多 方面 ， 涉 及 数据 管理 、 信 息 抽取 和 知识 
工程 等 多 个 交叉 学 科 领 域 ， 研 究 主题 包括 数据 与 知识 抽取 技术 、 层 义 性 消除 、 数 据 与 知识 融合 技术 、 数 据 与 知识 建 模 、 关 联 知识 
库 的 应 用 等 。 本 期 专题 经 过 公开 征文 收 到 43 篇 投稿 ， 并 最 终 收 录 了 7 篇 论文 ， 内 容 涉及 实体 抽取 、 实 体 链接 、 数 据 融合 与 溯源 、 
豆 文本 理解 、 数 据 查 询 、 知 识 表 示 等 主题 ， 为 相关 领域 的 研究 者 探讨 面向 大 数据 的 数据 融合 和 知识 融合 的 基础 理论 研究 及 其 应 
用 、 讨 论 该 领域 内 最 新 的 突破 性 进展 、 交 流 新 的 学 术 思想 和 新 方法 以 及 展望 未 来 的 发 展 趋 势 提供 了 很 好 的 沟通 和 交流 机 会 。 
2016 年 12 月 ， 实 验 室 在 《软件 学 报 》 组 织 了 “数据 开放 与 隐私 管理 ”专题 〈( 孟 小 峰 、 林 东 岱 ) 。 专 题 通过 公开 征文 获得 16 篇 投 
稿 ， 最 终 从 中 远 选 出 3 篇 高 质量 的 论文 入 选 本 专题 。3 篇 论文 分 别 对 数据 开放 中 一 般 性 隐私 理论 ， 社 交 网 络 图 数据 开放 和 时 空 数 
据 开放 这 两 种 重要 大 数据 应 用 场景 下 的 隐私 问题 进行 了 探讨 ， 在 一 定 程度 上 反映 了 当前 国内 各 研究 单位 在 数据 开放 和 隐私 管理 领 
域 的 主要 研究 方向 。 





其 次 ， 实 验 室 于 2016 年 11 月 7 日 在 中 国人 民 大 学 组 织 了 “2016 (首届 ) 中 国 隐私 保护 学 术 会 议 ”。 本 次 会 议 是 国内 隐私 保 
护 领 域 的 一 次 重要 盛会 ， 由 中 国保 密 协 会 隐私 保护 专业 委员 会 主办 ， 由 中 国人 民 大 学 孟 小 峰 教 授 、 信 息 工 程 研究 所 信息 安全 国家 
重点 实验 室 林 东 货主 任 担任 大 会 主席 ， 来 自 国内 外 的 两 百 余 人 参加 了 本 次 会 议 。 会 议 邀 请 了 佐治 亚 理工 大 学 Ling Liu 教 授 、 中 国 
人 民 大 学 孟 小 峰 教 授 、 阿 里 巴巴 集团 安全 部 技术 杜 跃进 副 总 裁 、 中 国信 息 通 信 研 究 院 技术 与 标准 研究 所 何 宝 宏 副 所 长 、 中 国 科 学 
院 软件 研究 所 丁 丽 萍 研究 员 、 西 安 交 通 大 学 桂 小 林 教 授 、 复 旦 大 学 周 水 庚 教 授 、 中 国电 科 三 十 所 安 红 章 高 级 工程 师 、 贵 州 大 学 彭 
长 根 教授 和 东南 大 学 倪 阐 伟 教 授 十 位 专家 学 者 ， 并 就 大 数据 下 的 新 的 隐私 问题 、 隐 私 模 型 、 隐 私 保护 技术 、 隐 私 问题 的 挑战 等 几 


个 议题 展开 讨论 。 








最 后 ， 实 验 室 组 织 了 面向 新 型 硬件 和 知识 图 谱 的 大 数据 管理 系列 研讨 会 。 目 前 大 数据 论坛 会 议 大 多 侧重 宏观 交流 ， 但 小 同行 
微观 的 讨论 实 为 更 有 必要 。2016 年 12 月 9 日 ， 实 验 室 在 中 国人 民 大 学 举办 “面向 新 型 硬件 的 大 数据 管理 ”研讨 会 。 本 次 研讨 会 的 
主题 包括 软 硬 件 协同 设计 (Co-Design) 、 基 于 CPU-GPU 的 科学 数据 处 理 和 大 数据 存储 和 性 能 量化 分 析 等 内 容 。2017 年 01 月 
05 日 ， 实 验 室 在 中 国人 民 大 学 举行 了 “大 规模 知识 图 谱 构建 与 应 用 (Large Scale Industry-Specific Knowledge Graph 
Building) ”研讨 会 。 这 次 会 议 汇聚 了 人 工 智 能 、 知 识 图 谱 、 图 数据 库 等 相关 领域 的 研究 人 员 ， 开 展 小 范围 深入 交流 。 本 次 研讨 
会 的 主题 是 语义 、 知 识 与 链接 大 数据 ， 着 重 探讨 知识 图 谱 构 建 的 技术 、 方 案 、 策 略 和 知识 图 谱 在 机 器 人 、 人 金融 、 安 全 领域 的 应 
用 ， 以 及 知识 图 谱 中 其 他 待 研究 的 问题 和 挑战 ， 旨 在 促进 研究 单位 之 间 以 及 研究 界 和 产业 界 之 间 的 学 术 交 流 ， 探 索 今后 大 规模 知 
识 图 谱 构 建 的 研讨 和 合作 机 制 。 


实验 室 本 年 度 最 有 意义 的 活动 是 学 生 们 组 织 了 “大 数据 管理 实践 ”为 主题 的 毕业 生 分 享 活动 ， 邀 请 了 活跃 于 工业 界 的 实验 室 
毕业 生 ， 回 校 分 享 他 们 在 大 数据 管理 实践 中 遇 到 的 问题 和 积累 的 经 验 。 


(摘自 《2016 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 “大 数据 思考 


附录 A ”大 数据 与 小 数据 


过 去 的 一 年 里 ， 大 数据 依然 不 分 青红皂白 地 火热 ， 到 处 是 “锣鼓 喧 天 (大 数据 论坛 ) ”“ 鼓 乐 齐 鸣 (大 数据 政策 ) ” “开业 
大 吉 (大 数据 学 院 、 中 心 ) ”以 及 “跑马 圈 地 (学 会 、 项 目 ) ”。 最 近 我 在 翻译 克 莉 丝 汀 上 伯 格 曼 的 著作 《大 数据 ， 小 数据 ,无 
数据 》， 有 些 感悟 。“ 数 据 (data) ”这 一 概念 虽然 最 近 才 流行 起 来 ， 但 它 并 不 是 一 个 新 术语 。 其 实 “ 数 据 ” 这 一 术语 的 使 用 
已 是 第 五 个 世纪 了 ,但 至 今 仍 没有 一 个 公认 的 定义 。 克 莉 丝 汀 L' 伯 格 曼 认 为 数据 既 不 是 客观 事物 ， 也 不 是 带 有 自身 特征 的 自然 对 
象 ， 它 只 是 对 客观 对 象 中 某 些 可 观测 到 的 现象 的 描述 ， 这 些 描述 会 因 人 而 异 、 因 地 而 异 和 因 时 而 异 。 如 何 把 客观 事物 概念 化 为 数 
据 ， 就 是 大 数据 的 本 质 。 


三 年 前 ， 应 《计算 机 研究 与 发 展 》 编 辑 部 之 约 ， 我 撰写 了 《大 数据 管理 : 概念 、 技 术 与 挑战 》 (计算 机 研究 与 发 
展 ，2013，50 (1) : 146-169) 一 文 。 论 文 前 述 了 在 大 数据 时 代 ， 数 据 从 简单 的 处 理 对 象 开始 转变 为 一 种 基础 性 资源 ， 大 数据 
的 规模 效应 给 数据 存储、 管理 以 及 数据 分 析 带 来 了 极 大 的 挑战 ， 数 据 管 理 方式 上 的 变革 正在 酝酿 和 发 生 ; 在 剖析 大 数据 基本 概念 
的 基础 上 上， 阐述 大 数据 处 理 的 基本 框架 ， 并 就 云 计算 技术 对 于 大 数据 时 代数 据 管理 所 产生 的 作用 进行 分 析 ; 最 后 归纳 总 结 大 数据 
时 代 所 面临 的 挑战 。 这 篇 文章 发 表 后 引起 了 极 大 的 关注 ， 在 CNKI 的 下 载 达 7 万 余 次 ， 其 引用 创 《 计 算 机 研究 与 发 展 》 历 史 新 高 。 
研发 编辑 部 最 近 组 织 编 委 评选 2011 ~ 2015 年 度 五 年 优秀 论文 ， 本 文 被 评 为 三 篇 优秀 论文 之 一 。 


源 于 近 十 年 在 云 计算 和 大 数据 管理 方面 的 积累 ， 实 验 室 本 年 度 先 后 获得 了 多 项 国家 重大 研发 项 目的 支持 。 实 验 室 于 2016 年 7 
月 获得 国家 重点 研发 计划 “ 云 计 算 和 大 数据 ”专项 项 目 “ 科 学 大 数据 管理 系统 ”的 资助 ， 重 点 研究 天 文大 数据 万 亿 级 数据 实时 分 
析 和 微生物 大 数据 百 亿 级 数据 融合 和 交互 分 析 ， 期 望 通过 以 上 数据 管理 及 分 析 技 术 的 研究 ， 帮 助 科学 家 从 大 数据 中 挖掘 宝贵 的 财 
富 ， 为 天 文学 、 微 生物 学 等 前 沿 领域 的 重大 突破 提供 线索 ， 并 期 望 革 命 性 的 新 发 现 。 实 验 室 于 2016 年 12 月 获得 国家 自然 科学 基 
金 重 大 研究 计划 “大 数据 驱动 的 管理 与 决策 研究 ”重点 项 目 “ 大 数据 开放 与 治理 中 的 隐私 保护 关键 技术 研究 ”的 资助 。 本 项 目 以 
大 数据 集成 与 融合 、 查 询 与 分 析 、 发 布 与 共享 带 来 的 隐私 问题 为 切入 点 ， 提 出 了 大 数据 隐私 保护 框架 ， 具 体 包括 隐私 风险 监测 与 
评 佑 技术、 隐私 主动 保护 技术 、 查 询 隐 私 保护 技术 、 基 于 数据 溯源 的 问 责 技术 等 。 研 究 成 果 将 用 于 搭建 大 数据 管理 与 决策 下 的 隐 
私 保护 原型 系统 ， 并 以 移动 应 用 领域 为 示 学 ， 以 验证 所 提出 保护 机 制 与 模型 在 真实 数据 上 的 有 效 性 与 高 效 性 。 通 过 本 项 目 研究 可 
以 为 大 数据 隐私 保护 技术 进一步 深入 研究 与 应 用 提供 理论 方法 、 技 术 支 撑 与 新 的 思路 。 


在 学 术 活 动 方面 ， 积 极为 学 术 同 行 提供 力所能及 的 服务 和 贡献 是 本 实验 室 的 一 贯 风格 。 具 体 来 讲 依据 我 们 在 大 数据 管理 技术 
方面 的 积累 ， 参 与 组 织 了 如 下 的 学 术 产 品 和 学 术 交 流 : 


首先 ， 实 验 室 在 本 年 度 组 织 了 两 期 与 大 数据 有 关 的 专题 。2016 年 2 月 在 《计算 机 研究 与 发 展 》 组 织 了 “数据 融合 与 知识 融 
合 ”专题 ( 孟 小 峰 、 王 建 筋 、 董 欣 ) ， 侧 重大 规模 数据 和 知识 的 抽取 、 融 合 及 应 用 等 诸多 方面 ， 涉 及 数据 管理 、 信 息 抽取 和 知识 
工程 等 多 个 交叉 学 科 领 域 ， 研 究 主题 包括 数据 与 知识 抽取 技术 、 层 义 性 消除 、 数 据 与 知识 融合 技术 、 数 据 与 知识 建 模 、 关 联 知识 
库 的 应 用 等 。 本 期 专题 经 过 公开 征文 收 到 43 篇 投稿 ， 并 最 终 收 录 了 7 篇 论文 ， 内 容 涉及 实体 抽取 、 实 体 链接 、 数 据 融合 与 溯源 、 
短文 本 理解 、 数 据 查 询 、 知 识 表示 等 主题 ， 为 相关 领域 的 研究 者 探讨 面向 大 数据 的 数据 融合 和 知识 融合 的 基础 理论 研究 及 其 应 
用 、 讨 论 该 领域 内 最 新 的 突破 性 进展 、 交 流 新 的 学 术 思 想 和 新 方法 以 及 展望 未 来 的 发 展 趋势 提供 了 很 好 的 沟通 和 交流 机 会 。 
2016 年 12 月 ， 实 验 室 在 《软件 学 报 》 组 织 了 “数据 开放 与 隐私 管理 ”专题 〈( 孟 小 峰 、 林 东 岱 ) 。 专 题 通过 公开 征文 获得 16 篇 投 
稿 ， 最 终 从 中 遂 选 出 3 篇 高 质量 的 论文 入 选 本 专题 。3 篇 论文 分 别 对 数据 开放 中 一 般 性 隐私 理论 ， 社 交 网 络 图 数据 开放 和 时 空 数 
据 开放 这 两 种 重要 大 数据 应 用 场景 下 的 隐私 问题 进行 了 探讨 ， 在 一 定 程度 上 反映 了 当前 国内 各 研究 单位 在 数据 开放 和 隐私 管理 领 





域 的 主要 研究 方向 。 


其 次 ， 实 验 室 于 2016 年 11 月 7 日 在 中 国人 民 大 学 组 织 了 “2016 (首届 ) 中 国 隐私 保护 学 术 会 议 ”。 本 次 会 议 是 国内 隐私 保 
护 领 域 的 一 次 重要 盛会 ， 由 中 国保 密 协 会 隐私 保护 专业 委员 会 主办 ， 由 中 国人 民 大 学 孟 小 峰 教 授 、 信 息 工 程 研究 所 信息 安全 国家 
重点 实验 室 林 东 货主 任 担任 大 会 主席 ， 来 自 国内 外 的 两 百 余 人 参加 了 本 次 会 议 。 会 议 邀 请 了 佐治 亚 理工 大 学 Ling Liu 教 授 、 中 国 
人 民 大 学 孟 小 峰 教 授 、 阿 里 巴巴 集团 安全 部 技术 杜 跃进 副 总 裁 、 中 国信 息 通 信 研 究 院 技术 与 标准 研究 所 何 宝 宏 副 所 长 、 中 国 科 学 
院 软件 研究 所 丁 丽 萍 研究 员 、 西 安 交 通 大 学 桂 小 林 教 授 、 复 旦 大 学 周 水 庚 教 授 、 中 国电 科 三 十 所 安 红 章 高 级 工程 师 、 贵 州 大 学 彭 
长 根 教授 和 东南 大 学 侃 狗 伟 教 授 十 位 专家 学 者 ， 并 就 大 数据 下 的 新 的 隐私 问题 、 隐 私 模型 、 隐 私 保护 技术 、 隐 私 问题 的 挑战 等 几 
个 议题 展开 讨论 。 


最 后 ， 实 验 室 组 织 了 面向 新 型 硬件 和 知识 图 谱 的 大 数据 管理 系列 研讨 会 。 目 前 大 数据 论坛 会 议 大 多 侧重 宏观 交流 ， 但 小 同行 
微观 的 讨论 实 为 更 有 必要 。2016 年 12 月 9 日 ， 实 验 室 在 中 国人 民 大 学 举办 “面向 新 型 硬件 的 大 数据 管理 ”研讨 会 。 本 次 研讨 会 的 
主题 包括 软 硬 件 协同 设计 (Co-Design) 、 基 于 CPU-GPU 的 科学 数据 处 理 和 大 数据 存储 和 性 能 量化 分 析 等 内 容 。2017 年 01 月 
05 日 ， 实 验 室 在 中 国人 民 大 学 举行 了 “大 规模 知识 图 谱 构建 与 应 用 (Large Scale Industry-Specific Knowledge Graph 
Building) ”研讨 会 。 这 次 会 议 汇聚 了 人 工 智 能 、 知 识 图 谱 、 图 数据 库 等 相关 领域 的 研究 人 员 ， 开 展 小 范围 深入 交流 。 本 次 研讨 
会 的 主题 是 语义 、 知 识 与 链接 大 数据 ， 着 重 探讨 知识 图 谱 构 建 的 技术 、 方 案 、 策 略 和 知识 图 谱 在 机 器 人 、 人 金融 、 安 全 领域 的 应 
用 ， 以 及 知识 图 谱 中 其 他 待 研究 的 问题 和 挑战 ， 旨 在 促进 研究 单位 之 间 以 及 研究 界 和 产业 界 之 间 的 学 术 交 流 ， 探 索 今后 大 规模 知 
识 图 谱 构 建 的 研讨 和 合作 机 制 。 


实验 室 本 年 度 最 有 意义 的 活动 是 学 生 们 组 织 了 “大 数据 管理 实践 ”为 主题 的 毕业 生 分 享 活动 ， 邀 请 了 活跃 于 工业 界 的 实验 室 
毕业 生 ， 回 校 分 享 他 们 在 大 数据 管理 实践 中 遇 到 的 问题 和 积累 的 经 验 。 


(摘自 《2016 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 B 数据 的 起 源 


“ 浅 浅 的 知识 比 无 知 更 使 人 栗 六 不 安 ， 深 深 的 知识 使 人 安定 ， 我 们 无 非 是 落 在 这 一 片 深 深 浅 浅 之 中 。” 木 心 的 语言 总 是 那么 
平静 而 深邃 。 


过 去 的 一 年 大 数据 话题 仍 是 热 热 闵 闹 ， 深 深浅 浅 。 凭 借 坚守 数据 管理 的 理念 ， 思 考 着 大 数据 管理 的 机 遇 与 挑战 ， 试 图 能 给 出 


一 个 比较 “ 深 深 的 知识 ”。 





年 底 刚 刚 完成 关于 “计算 机 研究 与 友 展 ”的 一 个 专题 一 一 大 数据 管理 。 在 此 专题 的 前 言 中 总 结 了 自己 近期 的 一 些 思考 。 


已 故 的 图 灵 奖 得 主 jim Gray 在 其 《事务 处 理 》 一 书 中 提 到 : 6000 年 以 前 ， 苏 美 尔 人 (Sumerians) 就 使 用 了 数据 记录 的 方 
法 ， 已 知 最 早 的 数据 是 写 在 土 块 上 ， 上 面 记录 着 皇家 税收 、 土 地 、 谷 物 、 牲 畜 、 奴 隶 和 黄金 等 情况 。 随 着 社会 的 进步 和 生产 力 的 
是 高 ， 类 似 土 块 的 处 理 系统 演变 了 数 干 年 ， 经 历 了 眉 起 甲骨 文 、 古 埃及 纸 莎 草 纸 、 羊 皮 纸 等 。19 世 纪 后 期 ， 打 孔 卡 片 出 现 ， 用 
于 1890 年 美国 人 口 普查 ， 用 卡片 取代 土 块 ， 使 得 系统 可 以 每 秒 查找 或 更 新 一 个 “ 土 块 ” (卡片 ) 。 可 见 ， 用 数据 记录 社会 由 来 
已 久 ， 而 数据 的 多 少 和 系统 的 能 力 是 与 当时 的 社会 结构 的 复杂 程度 和 生产 力 水 平 密切 相关 的 。 


随 着 人 类 进入 21 世 纪 ， 尤 其 是 互联 网 和 移动 互联 网 技术 的 发 展 ， 使 得 人 与 人 之 间 的 联系 日 益 密切 ， 社 会 结构 日 趋 复 杂 ， 生 
产 力 水 平 得 到 极 大 提升 ， 人 类 创造 性 活力 得 到 充分 释放 ， 与 之 相应 的 数据 规模 和 处 理 系统 发 生 了 巨大 改变 ， 从 而 催生 了 当下 众人 
热 议 的 大 数据 局 面 。 


其 实数 据 本 无 所 谓 大 小 ， 也 没有 高 低 贵贱 之 分 ， 只 有 应 用 是 促使 我 们 前 行 的 动力 。 潜 意识 里 ， 我 一 直 把 “big data” 看 
作 “big application” 。 


今年 了 结 了 一 个 大 的 心愿 。 十 年 前 设想 的 创新 数据 管理 三 部 曲 : 《移动 数据 管理 : 概念 与 技术 》 (清华 大 学 出 版 
社 ，2009) 、《XML 数 据 管 理 : 概念 与 技术 》 (清华 大 学 出 版 社 ，2009) 和 《Web 数 据 管理 : 概念 与 技术 》 (清华 大 学 出 版 
社 ，2014) 终于 完成 。 在 清华 大 学 出 版 社 的 帮助 和 支持 下 ， 三 本 结集 为 《网 络 与 移动 数据 管理 》 出 版 。 在 某 种 程度 上 说 ， 网 络 
与 移动 数据 的 繁荣 开启 了 大 数据 时 代 ， 大 数据 所 体现 的 海量 、 多 源 、 异 构 与 实时 的 特征 与 Web 数 据 、XML 数 据 、 移 动 数 据 的 特 
征 几 多 相似 。 因 此 这 里 所 汇集 的 创新 数据 管理 技术 与 方法 三 部 曲 ， 本 质 上 提供 了 将 多 源 异 构 非 结构 化 数据 加 以 结构 化 管理 的 途 
径 ， 进 而 为 解决 大 数据 管理 问题 提供 了 基本 知识 、 技 术 与 方法 ， 也 可 以 作为 大 数据 人 才 培 养 的 参考 书目 。 


除 此 之 外 ， 本 年 度 实验 室 编 写 出 版 了 诸多 文献 。 所 编写 的 《大 数据 管理 系统 分 析 报 告 》 系 统 地 分 类 总 结 了 十 几 个 新 兴 的 系 
统 ; 编译 的 《数据 库 大 师 访谈 》 凝 聚 了 18 位 大 师 的 人 生 阅 历 ， 他 们 身上 所 体现 的 研究 精神 弥 足 珍贵 ; 由 Springer 出 版 了 英文 专 
著 《Moving Object Management》 第 二 版 ; 翻译 了 《数据 集成 原理 》 一 书 。 数 据 库 管理 系统 、 数 据 仓 库 与 数据 挖掘 、 数 据 集 
成 被 视 为 现代 数据 管理 技术 “三 剑客 ”， 但 在 人 们 的 认 知 度 上 ， 数 据 集成 技术 远 不 及 前 两 者 ， 其 主要 原因 或 许 在 于 缺乏 像 数据 库 
系统 、 数 据 挖掘 广为人知 的 专业 教材 ， 使 得 该 技术 时“ 叫好 ( 广 为 应 用 ) ”， 但 “不 叫座 (缺乏 教学 传播 ) ”。 本 书 可 以 说 一 举 
变 了 数据 集成 没有 专业 教材 的 困 局 。 尤 其 在 当今 大 数据 背景 下 ， 其 作用 尤为 突出 。 


本 年 度 实 验 室 组 织 了 CNCC2014 “数据 开放 与 隐私 管理 ”专题 论坛 ， 并 撰写 了 “大 数据 隐私 管理 ”的 综述 。 在 大 数据 时 
代 ， 大 数据 隐私 问题 显得 日 益 突出 。 传 统 的 隐私 保护 理论 和 技术 已 经 无 法 涵盖 大 数据 隐私 的 内 涵 ， 有 必要 对 其 进行 重新 思考 与 定 
位 。 隐 私 管理 的 提 法 有 别 于 隐私 保护 ， 我 们 是 试图 用 数据 管理 的 思路 给 出 解决 这 一 问题 的 途径 。 据 此 我 们 提出 了 大 数据 隐私 管理 
框架 以 及 该 框架 下 关于 隐私 管理 技术 的 主要 研究 内 容 ， 并 指出 相应 的 技术 挑战 。 


本 年 度 实 验 室 继续 致力 于 高 水 平 系统 的 研发 。 学 术 空间 系统 Scholar-Space 自 2008 年 第 一 版 发 布 以 来 ， 经 过 多 年 发 展 ， 该 系 
统 已 逐渐 成 熟 并 取得 了 较 大 的 影响 力 。2014 年 ， 实 验 室 又 开发 了 新 的 功能 ， 主 要 增加 了 语义 检索 、 领 域 分 类 ， 并 推出 微 信 公众 
号 ， 通 过 多 种 方式 和 平台 为 用 户 提供 服务 ， 进 一 步 扩大 了 系统 影响 力 。 领 域 分 类 主要 是 对 收录 论文 进行 专业 分 类 ， 以 电子 期 刊 形 
式 ， 按 月 、 分 领域 地 提供 文献 分 类 导读 ， 可 查看 该 领域 顶级 研究 机 构 和 顶级 研究 学 者 的 排名 。 


人 才 培 养 是 实验 室 的 核心 功能 ,我 们 仍 一 以 贯 之 地 举办 每 周一 次 的 学 术 例会 ， 有 关 讨 论 的 题目 和 摘要 附 在 年 报 之 中 。 学 生 们 
都 很 努力 ， 也 取得 了 不 小 的 成 就 。 年 报 也 一 直 关 注 已 毕业 学 生 的 成 长 ， 我 们 看 到 既 有 同学 在 国外 拿 到 学 位 、 入 职 国际 一 流 企业 研 
究 机 构 ， 也 有 在 国内 高 校 任职 的 同学 晋升 教授 。 十 五 年 来 ， 实 验 室 的 成 长 令 人 欣慰 ， 在 此 感谢 大 家 所 给 予 的 帮助 和 付出 的 努力 ! 


(摘自 《2014 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 C ”大 数据 时 代 的 信息 系统 


“自从 阴错阳差 地 掉 进 这 片 海里 ， 不 知 不 觉 我 已 经 游 了 8 年 ， 并 且 于 公元 1998 年 惊奇 发 现 ， 好 像 是 真 的 已 经 游 到 了 胜利 彼 
岸 ”。 眼 下 ， 我 衣衫 检 裤 、 筋 疲 力 尽 ， 孤 零 零 坐 在 岸 边 ， 而 心里 最 想 做 的 就 是 召唤 故乡 那些 智慧 勇敢 的 人 们 ， 一 起 来 到 这 片 肥沃 
而 又 辽阔 的 新 大 陆 ， 跑 马 圈 地 ， 共 建 家 园 。” 十 五 年 前 的 这 段 话 ， 摘 写 当 下 的 心境 也 颇 为 合适 。 大 数据 的 浪潮 过 去 一 年 一 浪 高 过 
向 了 这 片 新 大 陆 ， 但 只 见 跑马 圈 地 ， 未 见 共 建 家 园 。 


这 一 年 仍 在 不 停 软 地 思考 大 数据 的 根本 问题 。 年 初 发 表 在 《计算 机 研究 与 发 展 》 上 的 综述 “大 数据 管理 : 概念 、 技 术 与 挑 


战 ”获得 了 同行 的 广泛 关注 ， 下 载 次 数 一 直 高 居中 国 知 网 的 首位 ， 由 此 可 见 大 数据 的 热度 非 同一 般 。 文 中 通过 对 数据 源 产生 的 演 
化 分 析 ， 揭 示 了 数据 管理 需求 和 任务 的 不 断 变化 ， 促 使 数据 管理 系统 不 断 推 陈 出 新 。 回 顾 数 据 管理 技术 的 发 展 ， 一 脉 相 承 的 是 追 
求 在 系统 中 提供 尽 可 能 贴近 用 户 的 数据 抽象 ， 数 据 抽 象 越 到 位 ， 用 户 使 用 越 方便 。 数 据 管理 系统 便 是 要 实现 这 种 抽象 机 制 : 面 对 
企业 数据 的 管理 ，DBMS 提 供 了 物理 模式 到 逻辑 模式 (关系 模型 ) 的 抽象 ; 面 对 互 联网 数据 的 管理 ， 数 据 集成 (数据 空间 ) 提供 
了 局 部 模式 到 全 局 模式 的 抽象 如今 面 对 大 数据 管理 ， 到 底 要 实现 什么 样 的 数据 抽象 ， 我 苦 苦 思索 ， 仍 不 得 要 领 ， 但 隐隐 感觉 这 
是 正确 的 思考 方向 。 


通常 抽象 级 别 低 的 系统 难以 得 到 广泛 的 推广 ， 如 Hadoop 等 NoSQL 系 统 。 这 注定 Hadoop 不 是 构建 大 数据 管理 的 基石 。 针 对 
未 来 大 数据 系统 我 提出 四 个 不 等 式 ， 即 : 在 大 数据 方法 上 Big Data# Database; 在 大 数据 技术 上 Big Data#Hadoop; 在 大 数据 
平台 上 Big DataxCloud; 在 大 数据 应 用 上 Big Data# lnternet。 最 后 一 点 是 指 现 有 的 几 家 互联 网 企业 只 是 大 数据 技术 的 “发 烧 
友 ” 级 别 的 初始 用 户 ， 但 它 绝 不 是 大 数据 技术 进入 成 熟 期 的 推动 者 ， 这 仍然 需要 企业 、 政 府 、 科 学 等 部 门 的 需求 推动 ， 特 别 是 财 
富 “Top1000” 大 企业 的 投入 。 对 这 些 用 户 ， 好 的 数据 抽象 是 至 关 重 要 的 ,但 对 “发 烧 友 ”级 的 用 户 则 未 必 。 


大 数据 时 代 的 信息 系统 构建 方式 正 发 生根 本 性 改变 ， 我 们 深切 感到 大 数据 对 信息 系统 的 构建 带 来 新 的 挑战 。 很 多 问题 需要 梳 
理 和 思考 。 


回顾 自己 2000 年 12 月 在 中 国 计 算 机 学 会 青年 计算 机 科技 论坛 (YOCSEF) 开展 的 “面向 21 世 纪 的 计算 机 技术 ”专题 讨论 会 
上 的 发 言 ， 当 时 提出 未 来 数据 库 发 展 遵循 的 四 个 方向 “大 小 广 易 ”， 即 : 大 一 一 超大 规模 数据 的 出 现 需要 高 性 能 、 复 杂 的 数据 
库 系统 ; 小 一 一 随 着 移动 计算 与 普遍 化 计算 的 发 展 ， 低 端的 精 小 型 系统 是 解决 个 性 数据 处 理 和 存储 的 主要 工具 ; 广 一 一 随 着 
Internet 的 发 展 ， 数 据 库 技术 的 应 用 空间 将 更 为 广 北 ， 即 未 来 数据 库 将 向 Web 这 样 一 个 广阔 的 空间 发 展 ， 易 一 一 数据 库 技术 中 
将 被 融入 自然 语言 甚至 肢体 语言 的 接口 ， 使 人 们 应 用 数据 库 变 得 更 加 容易 。 十 几 年 后 这 些 目标 均 成 为 目前 的 主流 方向 。 








面 对 大 数据 这 样 新 的 机 遇 期 ， 在 今年 举办 的 第 一 届 大 数据 学 术 会 议 上 徐 宗 本 院士 提出 一 个 有 趣 的 问题 ， 即 如 何 避 免 我 们 多 年 
来 形成 的 “一 哄 而 上 ， 最 后 一 哄 而 散 ” 的 局 面 。 我 认为 ， 一 哄 而 上 是 不 可 避免 的 ， 要 避免 一 哄 而 散 ， 需 要 思考 如 下 两 个 问题 : 研 
究 界 要 弄 清楚 什么 是 “Al-Complete” 问 题 ， 产 业界 要 搞 清 楚 什 么 是 “0 亿 元 ”市 场 。 市 场 看 似 很 大 ， 最 后 是 一 场 空 ， 如 同 数据 
库 界 当年 面向 对 象 数据 库 技术 。 这 是 Ingres 的 发 明 人 Michael Stonebraker 从 数据 库 界 历史 经 验 中 总 结 的 两 条 教训 ， 值 得 借鉴 。 


过 去 一 年 我 们 仍 为 学 术 界 贡 献 我 们 力所能及 的 力量 。 组 织 了 中 国 计 算 机 学 会 第 一 届 大 数据 学 会 会 议 ， 尽 我 们 所 能 使 得 会 议 从 
内 容 到 形式 得 到 大 家 的 认可 。 同 时 我 们 组 织 了 两 期 专刊 ， 即 JSCT 第 6 期 上 的 “Cloud Data Management” 和 《计算 机 研究 与 发 
展 》 第 12 期 上 的 “社会 计算 ”。 对 “社会 计算 ”专题 的 组 织 我 们 还 是 有 一 些 感触 ， 结 果 与 我 们 的 初衷 还 是 有 些 距离 ， 比 如 我 们 
缺少 社会 科学 研究 人 员 的 相关 研究 成 果 ， 而 自然 科学 领域 学 者 所 做 的 跨 学 科研 究 都 是 比较 浅 层次 的 社会 科学 理论 再 验证 ， 还 没有 
任何 一 个 研究 成 果 能 体现 基于 大 数据 发 现 新 的 深层 次 的 社会 科学 理论 ， 这 进一步 说 明 来 自学 科 壁 人 垒 的 挑战 十 分 严峻 ， 因 此 为 大 数 
据 提出 跨 学 科 的 协作 与 训练 、 提 出 学 科 间 统一 的 理论 指导 是 当前 最 大 的 挑战 。 


(摘自 《2013 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 D 数据库 (DB) 与 大 数据 (BD) 


“这 是 一 个 最 美好 的 时 代 ， 也 是 最 糟糕 的 时 代 ; 这 是 智慧 的 年 代 ， 也 是 愚昧 的 年 代 ; 这 是 信仰 的 时 期 ， 也 是 怀疑 的 时 期 ; 这 
是 光明 的 季节 ， 也 是 黑暗 的 季节 ; 这 是 希望 的 春天 ， 也 是 失望 的 冬天 ; 我 们 前 途 无 量 ， 同 时 又 感到 希望 渺 范 ; 我 们 一 起 奔 向 天 
堂 ， 我 们 全 都 走向 另 一 个 方向 ……” 这 是 狄更斯 在 其 《双城记 》 中 开篇 之 语 ， 很 耐人寻味 。 比 照 着 ， 我 们 可 以 有 : 这 是 大 数据 
(BD) 的 时 代 ， 也 是 小 数据 (DB) 的 时 代 ; 这 是 创新 的 时 期 ， 也 是 怀疑 (钱学森 之 问 ) 的 时 期 ; 这 是 实干 ( 兴 邦 ) 的 季节 ,也 


是 空谈 ( 误 国 ) 的 季节 ; 这 是 中 国 的 春天 ， 也 是 世界 的 冬天 ; 我 们 前 途 无 量 ， 同 时 又 感到 希望 渺 范 .…… 


大 数据 确实 是 当下 最 热 的 词 蕊 ， 各 种 概念 、 判 断 和 论调 纷争 。 今 年 暑期 去 了 一 趟 河南 安阳 的 用 越 遗 址 ， 对 大 数据 的 内 涵 颇 有 
感悟 。 河 南安 阳 乃 墟 遗址 的 最 大 发 现 就 是 青铜 器 司 母 成 易 和 甲骨 文 。 尤 其 是 甲骨 文 ， 目 前 已 出 土 了 十 四 万 片 ， 在 当年 的 发 握 中 发 
现 了 一 个 “甲骨 文大 坑 ”， 其 中 散落 了 一 万 七 干 余 片 甲骨 文 残片 ， 这 些 残 片 数 量 众多 ， 其 上 所 刻 的 文字 内 容 繁杂 。 由 于 到 目前 为 
止 还 无 法 完全 了 解 每 个 文字 所 代表 的 准确 合 义 ， 所 以 整个 甲骨 文 的 解读 仍 处 于 一 个 相对 初级 的 阶段 。 倘 若 我 们 能 够 发 现 一 种 方 
法 ， 可 以 有 效 地 对 “甲骨 文大 坑 ” 残 片上 的 文字 进行 解读 ， 并 从 中 归纳 出 不 同 残片 上 文字 之 间 的 关联 ， 那 么 就 极 有 可 能 在 此 基础 
上 整理 出 甲骨 文 的 完整 体系 ， 从 而 最 大 程度 的 还 原 出 当时 的 社会 面 够 ， 即 体现 出 其 价值 所 在 。 


看 ， 在 大 数据 定义 问题 上 很 难 达成 一 个 完全 的 共识 。 在 面 对 实 际 问题 时 ， 不 必 过 度 拘泥 于 具体 的 定义 之 中 。 或 许 “ 甲 骨 文 大 
坑 ” 可 能 是 目前 对 大 数据 一 个 比较 恰当 的 比拟 。 试 想 目前 在 我 们 积累 的 数据 中 ， 有 多 少 个 类 似 “ 甲 骨 文大 坑 ” 的 大 数据 等 待 我 们 
去 处 理 ， 但 我 们 并 未 找到 行 之 有 效 的 方法 。 


谈 到 大 数据 (BD) ， 必 然 要 提 到 “小 数据 ”， 即 数据 库 (DB) 。 这 看 似 只 是 一 个 简单 的 技术 演进 ， 但 细 细 考究 不 难 发 现 两 
者 有 着 本 质 上 的 差别 。 大 数据 的 出 现 ， 必 将 颠覆 传统 的 数据 管理 方式 ， 同 时 也 为 之 提供 了 焕发 青春 的 机 遇 。 以 下 是 我 对 这 一 问题 
的 归纳 : 


DB 和 BD 关系 的 观点 








认为 BD 仍 是 DB 的 问题 ， 也 可 以 | 认为 BD 本质 上 还 是 DB 的 问题 ， 
用 DB 的 方法 解决 只 是 需要 一 些 BD 的 方法 来 解决 @ 

认为 BD 是 一 个 新 问题 ,但 是 可 以 | 认为 BD 是 一 个 新 问题 ， 需 要 新 的 方 
用 DB 的 一 些 方法 来 解决 法 解决 BD 的 问题 中 






但 


























其 实 目前 有 关 DB 和 BD 之 间 关 系 的 一 些 观点 可 总 结 为 四 类 : @DB->DB 论 一 一 如 SAP Sybase 公司 的 CTO lrfan Khan 的 观点 
是 “大 数据 是 个 大 谎言 ” (The Big Lie About Big Data) ， 他 认为 根本 就 不 存在 什么 大 数据 问题 。 过 去 的 几 十 年 我 们 的 数据 量 
一 直 在 不 断 地 增长 之 中 ， 但 我 们 总 是 能 够 通过 计算 基础 架构 的 调整 来 适应 新 的 数据 量 和 类 型 的 变化 。 因 此 所 谓 的 大 数据 问题 只 是 
炒作 ， 现 有 的 数据 库 技术 通过 改进 完全 可 以 应 对 所 谓 的 大 数据 问题 。@BD->DB 论 一 一 Michael Stonebraker 认 可 大 数据 是 个 间 
的 问题 ,但 是 传统 的 数据 库 技术 能 够 应 对 ， 他 认为 其 目前 领导 构建 的 SciDB 就 是 一 个 能 够 用 传统 数据 库 技术 解决 大 数据 问题 的 有 
效 工 具 。@DB->BDi 论 一 一 IlBM、Oracle、Teradata 等 传统 数据 库 公 司 则 认为 大 数据 本 质 上 还 是 数据 库 问 题 ， 但 是 在 问题 的 解 
决 中 需要 引入 一 些 新 的 大 数据 处 理 技 术 ， 比 如 构建 关系 数据 库 和 Hadoop 的 连接 器 等 。@BD->BD 论 一 一 大 多 数学 者 和 企业 都 认 
为 大 数据 是 有 别 于 传统 数据 库 的 新 问题 ， 因 此 需要 新 的 方法 解决 BD 的 问题 ， 典 型 代表 如 Google、Facebook 等 公司 的 解决 方 


一 
杀 。 


2012 年 ， 数 据 库 产业 界 的 两 个 系统 给 我 们 很 多 启示 ， 即 Oracle 的 Exadata 和 Google 的 F1。 前 者 将 数据 库 技术 DBMS 与 硬件 
相 融 合 ， 综 合 了 可 扩展 的 服务 器 和 存储 、InfiniBand 网 络 、PCI 内 存 、 智 能 内 存 高 速 缓存 等 ， 实 现 了 软 硬 件 一 体 化 的 数据 管理 技 
术 。 后 者 融合 了 BigTable 的 高 扩展 性 和 和 SQL 数据库 的 可 用 性 和 功能 性 。 这 是 DB->BD 论 和 BD->BD 论 的 有 益 尝 试 ， 也 预示 了 传统 
的 DBMS 不 死 ， 并 重 又 焕发 青春 。 





另 一 方面 ， 我 们 看 到 ， 在 大 数据 时 代数 据 不 再 仅仅 是 管理 的 对 象 ， 而 应 当 转 变 成 一 种 基础 资源 ， 用 数据 这 种 资源 来 协同 解决 
其 他 诸多 领域 的 问题 。 计 算 社会 科学 (Computational Social Science) 基于 特定 社会 需求 ， 在 特定 的 社会 理论 指导 下 ， 收 
集 、 整 理 和 分 析 数 据 足 迹 (data print) ， 以 便 进行 社会 解释 、 监 控 、 预 测 与 规划 的 过 程 和 活动 。 计 算 社会 科学 是 一 种 典型 的 需 


要 采用 第 四 种 范式 来 做 指导 的 科学 研究 领域 。Duncan J.Watts 在 《Nature》 杂 志 上 的 文章 “A twenty-first century 
science” 也 指出 借助 于 社交 网 络 和 计算 机 分 析 技 术 ，21 世 纪 的 社会 科学 有 可 能 实现 定量 化 的 研究 ， 从 而 成 为 一 门 真正 的 科学 。 
这 可 能 是 大 数据 时 代 带 给 我 们 最 令 人 惊喜 的 结果 。 在 移动 终端 超过 PC 终端 之 后 的 信息 时 代 ， 我 们 必须 做 点 什么 ， 或 许 大 数据 下 
的 社会 计算 就 是 问题 所 在 。 


在 此 背景 下 实验 室 定 位 于 以 下 三 个 问题 ， 着 力 开展 研究 ， 并 取得 了 一 定 的 成 果 : 
* Build big data solutions on the Web 一 ScholarfSpace 
* Build big data solutions in the cloud 一 CloudDB 
* Build big data solutions on emerging hatdwate 一 FlashDB 


在 过 去 的 一 年 里 ， 我 们 在 大 数据 和 社会 计算 方面 举办 了 两 场 重 要 的 学 术 会 议 (XLDB Asia2012 和 NCSC2012) ， 引 起 同行 的 
关注 ， 也 算是 为 这 个 领域 的 发 展 做 出 自己 的 贡献 。 两 场 学 术 会 议 突 出 的 特点 是 强调 多 学 科 交 又 ,社会 计算 会 议 请 到 了 信息 、 管 
理 、 新 闻 传 播 、 社 会 学 、 计 算 物 理学 等 多 领域 学 者 ，XLDB 请 到 了 科学 界 、 工 业界 、 学 术 界 国内 外 专家 以 “报告 +Pannel” 的 方 
式 进行 头脑 风暴 、 思 想 碰撞 。 对 我 来 说 ， 收 获 颇 大 ， 这 是 送 到 家 门口 的 一 次 大 数据 的 “需求 分 析 ”。 面 对 大 数据 ， 不 做 需求 分 


析 ， 肯 定 是 “空谈 误 


佬 


《摘自 《2012 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 E ”大 数据 多 学 科 交 叉 研究 


经 济 学 家 李 稻 葵 在 他 的 一 篇 文章 “ 萨 缪 尔 森 的 风采 ”中 写 道 : “通过 萨 缪 尔 森 之 手 ， 那 个 时 代 的 经 济 学 体系 彻底 建立 在 完美 
的 数学 体系 之 上 ， 这 个 体系 的 确 太 完美 了 ， 完 美 得 像 牛顿 力学 。 但 是 ， 这 个 体系 显然 有 很 多 地 方 与 现实 不 符 ， 于 是 过 去 半 个 世纪 
以 来 ， 经 济 学 家 致力 于 修 修补 补 ， 到 今天 ， 经 济 学 已 经 在 很 大 程度 上 支离破碎 了 。 每 个 人 抓 住 一 个 具体 方面 修一 修 ， 补 一 补 ， 到 
最 后 整个 经 济 学 大 厦 变 得 干净 百 孔 。 ”对 比 过 去 五 十 年 数据 库 的 研究 ， 也 有 同感 : 通过 E.F.Codd 之 手 ， 数 据 库 系统 彻底 建立 在 
完美 的 数学 体系 之 上 (关系 理论 ) 。 这 个 体系 十 分 完美 简洁 ， 但 是 ， 这 个 体系 显然 有 很 多 地 方 与 现实 (面向 对 象 、 半 结构 化 、 非 
结构 化 数据 ，Web 数 据 和 流 数 据 等 ) 不 符 。 于 是 ， 近 二 十 年 来 ， 数 据 库 学 者 致力 于 修 修补 补 ， 到 今天 ， 数 据 库 系统 已 经 在 很 大 
程度 上 支离破碎 了 。 每 个 人 抓 住 一 个 具体 方面 修一 修 ， 补 一 补 ， 到 最 后 整个 数据 库 系统 大 厦 变 得 干净 百 孔 。Web 时 代 的 宠儿 如 
Google 等 不 愿 用 这 样 干 疱 百 孔 的 系统 ， 它 们 干脆 从 底层 文件 系统 开始 另起炉灶 ， 并 逐渐 结合 云 存储 的 兴起 形成 了 NoSQL 运 动 。 
不 难看 出 ， 从 理论 基础 和 完备 性 角度 看 ， 这 类 系统 尚 显 稚嫩 ， 但 它 简洁 轻便 ， 够 用 就 行 ， 奉 行 的 是 “ 急 学 先 用 ， 立 竿 见 影 ”。 


这 是 一 个 激荡 变革 的 年 代 ， 技 术 也 不 断 花样 翻新 ， 但 我 们 应 当 看 到 ， 在 “和 急 学 先 用 ， 立 竿 见 影 ”的 影响 下 ， 近 三 十 年 的 计算 
机 研究 成 果 很 少 进入 教科 书 体系 ， 计 算 机 学 科 核心 教科 书 的 内 容 均 取材 于 计算 机 历史 前 三 十 年 的 成 果 ， 以 数据 库 为 例 ， 自 20 世 
纪 90 年 代 后 的 成 果 鲜 有 进入 教科 书 的 。 这 是 我 们 教材 陈 | 日 了 ， 还 是 我 们 的 成 果 不 够 资格 进入 教材 ， 这 值得 深思 。 


回想 Web 与 移动 数据 管理 实验 室 走 过 的 十 年 ， 其 研究 也 没有 走出 这 修 修补 补 的 模式 ， 好 在 过 去 十 年 我 们 一 以 贯 之 地 做 了 几 
件 大 家 看 得 到 的 事情 (CDBLP、OrientX 和 MOD 等 ) ， 算 是 小 有 收获 。 没 有 捡 着 西 扒 ， 至 少 捡 了 几 粒 芝麻 。 


去 年 我 们 将 自己 未 来 十 年 的 研究 概括 为 “创新 数据 管理 研究 2.0”， 涉 及 云 计 算 、 闪 人 存 人 存储 、 隐 私 保 护 、 移 动 互联 网 等 关键 
词 ， 试 图 探索 为 下 一 代 计 算 技术 和 应 用 所 需 的 数据 管理 技术 。 过 去 的 一 年 研究 使 我 们 更 坚定 了 这 一 定位 。 基 于 闪存 、PCM 等 新 
型 存储 技术 的 数据 库 系统 的 研究 有 可 能 产生 基础 性 的 创新 ， 隐 私 保 护 是 未 来 众多 技术 发 展 中 不 可 逾越 的 障碍 ， 移 动 互 联网 的 普及 


同样 有 若干 天 键 问题 需要 解决 。 倒 是 目前 最 热 的 云 计 算 、 物 联网 还 未 找到 实质 的 感觉 ， 看 来 “ 云 里 雾 ( 物 ) 里 和 海里 ”的 探索 还 
是 有 些 肚 忽 不 定 ， 需 要 扎 到 应 用 中 去 积累 。 这 样 至 少 能 解决 一 些 现 实 问题 ， 理 论 创新 不 敢 想 。 


过 去 一 年 基于 人 大 的 学 科 背景 ， 在 中 国人 民 大 学 重大 基础 研究 计划 的 支持 下 ， 着 重 开展 了 社会 计算 的 研究 ， 并 召开 相关 多 学 
科 交 又 的 研讨 。 社 会 计算 是 沟通 社会 科学 和 计算 机 科学 的 桥梁 。 社 会 计算 要 支持 社会 科学 研究 ， 从 信息 获取 、 分 析 、 建 模 、 实 
验 、 决 策 和 平台 等 层面 突破 目前 交叉 学 科 面临 的 困境 ， 为 社会 科学 提供 新 的 研究 框架 与 工具 ， 也 为 信息 技术 提供 新 思路 。 当 然 我 
们 也 看 到 社会 计算 在 社会 科学 家 中 扩散 所 面临 的 困难 ， 其 中 既 有 技术 知识 、 研 究 经 费 等 物质 条 件 的 因素 ， 也 有 知晓 度 低 、 与 社会 
科学 传统 方法 和 “技术 怀疑 主义 ”的 不 兼容 的 原因 。 不 过 我 们 还 是 觉得 在 以 人 文 社会 科学 为 主体 的 人 民 大 学 开展 这 一 研究 工作 还 
是 非常 有 意义 的 。 因 为 真正 交叉 学 科 的 研究 是 未 来 产生 创新 的 机 会 所 在 。 


在 系统 开发 方面 ， 中 文 文献 集成 系统 学 术 空间 C-DBLP (http://www.cdblp.cn/) 的 功能 得 到 提升 ， 增 加 了 期 刊 和 学 术 机 构 
的 论文 录用 情况 ， 比 如 给 出 了 计算 机 领域 学 术 机 构 论文 列表 Top50， 这 和 学 科 评 估 的 结果 差不多 ， 同 时 也 给 出 了 Top50 ( 近 三 
年 ) 、Top50 ( 近 五 年 ) 、Top50 ( 近 十 年 ) 结果 。 此 外 我 们 推出 了 中 文 文献 导读 

(http://www.cdblp.cn/readinglist.php) ， 这 是 一 个 非常 便利 的 计算 机 领域 权威 中 文 期 刊 导读 指南 ， 它 以 美观 大 方 的 数字 电 
子 期 刊 形式 展示 计算 机 领域 核心 期 刊 的 最 新 发 表 论文 目录 ， 方便 学 者 浏览 。 此 外 ， 导 读 还 自动 将 某 领域 的 论文 聚合 成 为 专辑 ， 如 
《数据 库 领 域 论 文 辑录 》， 这 在 一 定 程度 上 解决 了 目前 计算 机 领域 “ 泛 刊 ” (综合 性 ) 偏 多 ,缺乏 “专刊 ” (领域 性 ) 的 问题 。 


这 些 年 我 们 的 一 些 研究 成 果 陆 续 得 到 企业 的 关注 与 支持 ， 先 后 得 到 IBM ( 云 数据 管理 ) 、Google (隐私 保护 ) 、 
MSRA (移动 互联 网 ) 、 百 度 (闪存 数据 库 ) 和 NEC ( 物 联网 数据 ) 等 资助 ， 开 展 相关 研究 ， 这 既 为 学 生 提 供 了 良好 的 实习 机 
会 ， 也 为 我 们 寻求 真实 的 问题 开阔 了 思路 。 


(摘自 《2011 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 F 创新 数据 管理 研究 2.0 


与 传统 的 谚语 “三 十 年 河东 、 三 十 年 河西 ” 相 比 ， 计 算 技术 的 变革 突飞猛进 ， 似 乎 呈现 着 “十 年 河东 、 十 年 河西 ”的 规律 ， 
微软 一 Google 一 Facebook 的 发 展 大致 可 以 印证 这 一 事实 。 


因此 从 事 这 个 领域 的 研究 以 十 年 一 个 周期 布局 自己 的 研究 方向 应 较为 合理 ， 变 换 周期 太 快 不 利于 成 果 的 积累 ， 变 化 周期 太 长 
容易 跟 不 上 发 展 的 节奏 ， 从 而 与 主流 技术 脱节 。 这 与 《Outliers: The story of success》 一 书 中 的 10 年 一 万 个 小 时 专注 做 一 件 
事 的 秘诀 是 一 致 的 。 


新 世纪 以 来 ， 数 据 库 界 普遍 面临 的 一 个 问题 是 ， 在 传统 的 数据 库 技 术 成 熟 之 后 ， 数 据 库 研究 应 向 何 处 去 ”凭借 自己 对 当时 技 
术 趋 势 的 判断 ， 我 将 研究 目标 定位 在 解决 数据 库 技 术 与 Web 计 算 和 移动 计算 交叉 结合 所 产生 的 挑战 性 问题 ， 即 结构 多 样 的 Web 
数据 管理 ， 半 结构 化 XML 数据 的 管理 ， 以 及 移动 环境 下 的 数据 管理 问题 ， 并 创立 了 “网 络 与 移动 数据 管理 实验 室 (Web and 
Mobile Data Management) ”， 和 致力 于 这 方面 的 研究 ， 取 得 了 一 些 国内 外 所 共 知 的 研究 成 果 。 我 把 这 一 阶段 的 研究 概括 为 创 
新 数据 管理 研究 1.0。 


今年 是 又 一 个 十 年 的 伊始 ， 我 一 直 在 思索 实验 室 下 一 个 十 年 的 研究 布局 。 我 们 不 难 发 现 数据 库 技 术 的 变革 (其 实 任何 信息 技 
术 亦 如 此 ) 主要 来 自 三 方面 的 驱动 ， 即 计算 模式 、 硬 件 技术 和 应 用 模式 的 不 断 创 新 。 基 于 新 的 三 方面 驱动 力 的 需求 ， 把 对 下 一 个 
十 年 的 研究 概括 为 创新 数据 管理 研究 2.0， 具 体 包含 如 下 研究 方向 。 


1) 闪存 数据 库 系 统 的 研究 。 它 来 自 硬件 技术 变革 的 驱动 力 ， 其 研究 目标 是 针对 闪存 硬件 特性 、 灵 活 的 应 用 模式 和 传统 数据 


库 技术 的 不 足 ， 研 究 全 新 的 闪存 数据 库 管理 技术 。 


2) 云 数据 库 系统 的 研究 。 它 来 自 计 算 模 式 变革 的 驱动 力 ， 其 研究 目标 是 实现 一 种 配置 灵活 ， 且 具有 高 可 用 性 、 高 容错 性 、 
可 扩展 性 和 高 性 能 的 云 数据 库 系 统 。 


3) Web 与 社会 计算 的 研究 。 它 来 自 应 用 模式 变革 的 驱动 力 ， 其 研究 目标 是 把 社会 计算 的 方法 引入 Web 数 据 管 理 ， 解 决 
Web 信 息 的 可 信和 隐私 保护 问题 。 


4) Mobile 与 隐私 保护 研究 。 它 来 自 应 用 模式 变革 的 驱动 力 ， 即 Mobile Web 需 求 日 益 人 迫切， 其 研究 目标 是 解决 移动 搜索 、 
隐私 保护 等 关键 问题 。 


5) 纯 XML 数 据 库 系统 研制 。 过 去 10 年 我 们 系统 研究 了 纯 XML 数 据 库 技 术 ， 获 中 国 计 算 机 学 会 “王选 奖 ”， 我 们 将 寻求 技术 
转移 的 途径 ， 进 行 产 业 化 尝试 。 


数据 库 系 统 发 展 经 历 了 三 十 年 ， 大 致 呈现 出 了 “分 久 必 合 、 合 久 必 分 ”规律 。20 世 纪 入 七 十 年 代 广泛 的 应 用 需求 的 出 现 促 
成 了 各 类 数据 库 系统 的 产生 。 八 九 十 年 代 大 型 网 络 分 布 计算 环境 的 普及 使 得 政府 、 企 业 的 应 用 需求 趋同 ， 导 致 几 大 数据 库 系统 
的 “大 一 统 ”局 面 出 现 。 当 下 互联 网 特别 是 云 计算 的 出 现 ， 使 得 应 用 需求 再 趋 多 样 化 ， 人 们 更 期 盼 与 自己 的 需求 功能 相宜 的 数据 
库 系统 ， 而 不 是 面面俱到 的 “大 拼盘 ”系统 ， 多 样 化 时 代 重 新 到 来 。 最 近日 渐 火 爆 的 “NoSQL” 运 动 正 是 迈 向 这 一 目标 的 党 
试 。 我 们 在 本 年 度 报 告 里 试图 把 这 些 我 们 观察 到 的 、 看 明白 或 没 看 明白 的 一 些 问 题 总 结 成 短文 ， 与 大 家 交流 ， 抛 砖 引 玉 。 


作为 大 会 主席 对 于 在 人 大 成 功 举办 第 27 届 中 国 数据 库 学 术 会 议 (NDBC) ， 特 别 是 我 们 邀请 到 二 十 多 位 七 八 十 岁 的 老 专 家 共 
聚 “中 国 数据 库 历史 回顾 和 萨 师 迷 教授 追思 会 ”， 感 到 特别 欣慰 ， 能 为 同行 提供 有 价值 的 交流 服务 是 一 种 享受 ， 感 谢 实验 室 老师 
同学 为 此 付出 的 巨大 辛劳 。 


(摘自 《2010 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 G 面向 移动 计算 与 云 计算 的 数据 管理 


在 过 去 的 十 年 间 ， 随 着 互联 网 的 迅速 发 展 ， 整 个 Web 的 数据 量 已 经 超过 了 200000TB， 并 仍 在 快速 地 增长 ， 这 使 其 成 为 人 们 
获取 有 用 信息 的 最 重要 的 途径 之 一 。 另 一 方面 ， 随 着 3G 时 代 的 到 来 ， 大 量 的 手机 、 移 动 设备 需要 频繁 访问 互联 网 ， 以 从 互联 网 
上 获取 丰富 的 信息 ， 这 是 一 个 必然 的 趋势 。 而 3G 所 带 来 的 高 带宽 ， 使 得 未 来 手机 将 不 再 是 一 个 简单 的 通话 工具 ， 人 们 从 互联 网 
上 获取 信息 将 越 来 越 依 赖 于 手机 和 其 他 移动 设备 。 


目前 ,虽然 用 户 已 经 能 够 通过 手机 及 其 他 移动 设备 访问 互联 网 ， 进 行 信息 查询 。 但 是 无 论 从 互联 网 上 的 信息 集成 系统 而 言 ， 
还 是 从 手机 上 的 查询 服务 而 言 ， 都 远 远 不 能 满足 用 户 的 需求 。 因 此 如 何 解 决 面向 移动 用 户 的 Web 数 据 集成 问题 ， 成 为 实验 室 今 
后 关注 的 一 个 新 的 研究 领域 ， 目 前 研究 界 还 缺乏 有 关 的 研究 成 果 ， 我 们 认为 这 是 一 个 创新 的 机 遇 。 


此 外 ， 云 计算 是 当今 信息 产业 最 受 天 注 的 一 种 计算 模式 ， 在 这 种 模式 下 ， 企 业 和 个 人 可 以 根据 自己 的 需要 购买 存储 设备 和 计 
算 能 力 ， 而 不 是 花费 大 量 资金 购买 大 规模 高 性 能 计算 机 。 作 为 云 计算 的 一 项 关键 技术 ， 云 数据 存储 和 云 数据 管理 为 业界 带 来 巨大 
的 潜在 商用 价值 。 随 着 信息 产业 的 发 展 ， 企 业 和 公司 产生 的 数据 量 快速 增长 ， 通 常数 据 规模 可 以 达到 TB 甚至 PB 级 别 。 如 何 管理 
和 分 析 海 量 数据 是 目前 很 多 领域 所 面临 的 问题 ， 例 如 在 医疗 、 通 信和 互联 网 领域 。 云 环境 是 由 大 量 的 性 能 普通 、 价 格 便宜 的 计算 
节点 组 成 的 一 种 无 共享 大 规模 并 行 处 理 环 境 ， 所 以 从 成 本 和 性 能 两 方面 考虑 ， 越 来 越 多 的 企业 更 愿意 把 自己 的 数据 中 心 从 昂贵 的 
高 性 能 计算 机 转移 到 共有 或 私有 云 环境 中 。 对 此 ， 实 验 室 提出 的 新 的 研究 课题 是 云 计 算 环境 下 的 数据 库 技 术 ， 实 现 一 种 具有 高 可 


用 性 、 高 容错 性 、 可 扩展 性 和 高 性 能 的 云 数据 库 系 统 。 为 此 我 们 创办 了 首 个 云 数据 管理 研讨 会 Cloud DB2009 (First 
International Workshop on Cloud Data Management, conjunction with CIKM2009，Hong Kong) ， 并 与 工业 界 建立 了 
密切 的 合作 关系 ， 开 设 了 “移动 & 云 计算 系列 学 术 报 告 ”。 


本 年 度 我 们 还 举办 了 两 届 闪 存 数 据 库 系统 研讨 会 (The Workshop on Flash-based Database Systems) ， 这 是 在 我 们 所 
主持 的 国家 自然 科学 基金 重点 项 目 “ 闪 存 数 据 库 技术 研究 ”的 支持 下 创立 的 学 术 交 流 平台 ， 也 是 课题 组 探索 的 一 种 新 的 课题 组 织 
方式 。 我 们 发 现 ， 同 行 间 的 深入 交流 有 助 于 研究 研究 水 平 的 提高 。 目 前 课题 组 在 闪存 数据 库存 储 管理 、 缓 冲 区 管理 、 查 询 处 理 和 
事务 处 理 ， 以 及 闪存 开发 板 、 闪 存 硬件 测试 等 方面 取得 的 最 新 研究 进展 和 技术 成 果 表 明 目 前 闪存 对 现 有 数据 库 的 性 能 提升 在 10 
倍 左右 ， 课 题 组 的 研究 目标 是 将 这 一 性 能 再 提升 5 ~ 10 倍 。 


《摘自 《2009 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 H ”大 数据 时 代 的 到 来 : 数据 空间 与 闪存 数据 库 研究 


图 灵 奖 获得 者 Jim Gray 曾 在 1998 年 的 获奖 演说 中 ， 对 未 来 数据 量 急剧 增长 的 规律 做 过 这 样 的 预言 : 未 来 每 18 个 月 产生 的 数 
据 量 等 于 有 史 以 来 的 数据 量 之 和 ! 


最 近 ， 我 们 又 看 到 美国 《未 来 学 家 》 杂 志 根 据 世 界 未 来 学 会 年 度 预 测 ， 对 未 来 世界 发 展 前 景 进行 了 展望 ， 其 中 认为 未 来 的 数 
据 将 以 佑 字 节 (Yottabyte， 即 十 亿 GB) 为 单位 进行 存储 。 因 为 不 断 发 展 的 数字 存储 能 力 ， 到 2050 年 时 ， 数 据 将 会 以 个 字 节 来 
表示 ， 我 们 不 需要 为 了 挪 出 更 大 的 空间 存储 数据 而 抛弃 已 有 的 数据 ， 这 开创 了 无 数 的 可 能 性 ， 例 如 在 一 台 计 算 机 上 存储 一 个 人 一 
生 中 每 一 秒 的 数据 信息 。 


这 种 发 展 趋势 将 引申 出 网 络 环境 下 数据 管理 新 的 科学 问题 : 即 以 佑 字 节 为 单位 的 数据 管理 ! 这 不 同 于 通常 所 说 的 海量 数据 管 
理 ， 它 将 面临 完全 不 同 的 应 用 需求 和 完全 不 同 的 存储 。 


回顾 历史 不 难看 出 ， 数 据 库 技术 的 发 展 得 益 于 两 方面 的 驱动 力 : 一 是 硬件 存储 设备 的 发 展 ， 它 为 数据 库 提供 可 用 的 载体 ;二 
是 来 自 实 际 的 应 用 需求 ， 它 为 数据 管理 提供 新 的 问题 。1956 年 ， 世 界 上 第 一 块 硬盘 产生 ， 到 20 世 纪 60 年 代 初 进入 普及 阶段 。 
1961 年 ， 第 一 个 基于 磁盘 存储 的 数据 库 系 统 就 出 现 了 。 可 以 想象 ， 如 果 没 有 磁盘 的 出 现 ， 计 算 机 依然 大 量 使 用 磁带 ， 那 么 高 效 
的 联机 数据 库 系 统 也 是 不 可 能 的 ; 同时 ， 随 着 计算 机 和 网 络 技术 在 企业 中 的 普及 ， 叶 致 了 大 量 的 企业 数据 管理 的 需求 ， 正 是 这 些 
企业 业务 中 产生 的 结构 性 较 强 的 数据 的 存在 以 及 管理 的 需要 ， 促 进 了 以 关系 数据 库 为 代表 的 数据 库 系 统 的 产生 和 发 展 ， 这 也 是 为 
什么 它 能 在 数据 管理 市 场 上 一 直 占 据 着 主导 地 位 的 原因 。 


但 是 ， 随 着 互联 网 的 普及 以 及 计算 机 设备 的 发 展 ， 传 统 数据 库 产 业 赖 以 生存 的 两 个 条 件 正在 悄然 发 生 着 改变 。 


首先 ， 世 界 上 仍然 有 超过 80% 的 数据 不 能 被 现 有 的 数据 库 系统 所 管理 。 这 些 数据 包括 很 多 半 结 构 化 和 无 结构 的 数据 ， 而 其 中 
有 很 大 一 部 分 是 由 个 人 使 用 互联 网 、 计 算 设 备 或 电子 设备 而 产生 的 。 比 如 当今 发 展 势 头 正 旺 的 Web2.0 就 产生 了 大 量 的 个 人 数 
据 。 目 前 对 于 这 些 结构 多 样 、 高 异 质 性 的 数据 仍然 缺少 有 效 的 管理 方法 。 在 这 样 的 环境 下 ， 数 据 空间 (dataspace) 的 概念 应 运 
而 生 。 数 据 空间 是 传统 数据 集成 的 发 展 与 延伸 ， 目 的 是 以 一 种 全 新 的 Pay-As-You-Go 的 方式 实现 对 异 质 数据 的 高 效 管理 。 这 不 
仅 是 一 个 新 的 概念 ， 更 吹 响 了 数据 管理 发 展 变革 的 号 角 。 


其 次 ， 在 硬件 方面 ,虽然 主 存 与 磁盘 的 容量 和 速度 近年 来 都 得 到 了 巨大 的 发 展 ， 但 是 二 者 在 读 写 速度 以 及 带 完 上 的 差距 不 仅 
没有 缩小 ， 甚 至 在 不 断 扩大 ， 成 为 了 制约 包括 数据 库 在 内 的 很 多 应 用 的 瓶颈 。 而 内 存 (flash) 的 出 现 为 这 一 问题 的 解决 带 来 了 
明光。 可 以 预计 ， 在 未 来 数 年 之 内 ， 随 着 闪存 的 发 展 和 普及 ， 世 界 上 有 可 能 会 有 大 量 的 数据 转 而 依赖 闪存 存储 。 目 前， 百度 已 全 


面 使 用 闪存 来 蔡 换 磁盘 ， 以 提高 检索 性 能 ， 据 称 效率 提高 了 50%。 而 以 往 提 高 同样 性 能 需要 几 干 台 服务 器 的 追加 。 闪 存 的 广泛 使 
用 必然 会 引发 数据 库 产业 的 大 变革 。 技 术 上 简单 的 更 新 和 扩展 可 能 无 法 适应 内 存 所 带 来 的 底层 结构 的 改变 ， 数 据 库 系 统 框架 和 各 
项 技术 可 能 将 迎 来 颠覆 性 的 变革 ， 市 场 将 呼唤 基于 内 存 的 数据 库 系 统 。 


当 一 个 产业 的 根本 需求 和 底层 架构 发 生 如 此 重大 变化 的 时 候 ， 与 挑战 同时 到 来 的 是 巨大 的 机 遇 ， 能 否 抓 住 这 次 机 遇 ， 在 这 片 
窑 新 的 天 地 写 下 属于 我 们 自己 的 一 笔 ， 这 正 是 我 们 实验 室 近 期 研究 的 巨大 动力 。 


在 国家 自然 基金 重点 项 目 和 863 计 划 探 索 项 目的 支持 下 ， 近 期 我 们 开展 了 闪存 数据 库 技术 和 个 人 数据 空间 管理 的 研究 工作 ，。 


闪存 数据 库 技术 的 研究 主要 针对 闪存 硬件 特殊 、 灵 活 的 应 用 模式 ， 人 研究 全 新 的 闪存 数据 库 管理 技术 ， 解 决 内 存 数据 库 的 存储 
管理 、 缓 冲 区 管理 、 查 询 处 理 、 事 务 处 理 等 关键 问题 ， 建 立 内 存 数 据 库 的 基本 理论 和 方法 体系 ， 为 闪存 数据 库 的 进一步 研究 与 应 
用 葛 定 基础 ， 为 数据 库 理论 和 技术 的 进一步 发 展 提供 新 思路 。 


个 人 数据 空间 技术 的 研究 主要 针对 个 人 桌面 和 网 络 环境 的 个 人 数据 管理 的 需要 ， 研 究 海量 数据 空间 的 理论 方法 和 实现 技术 ， 
在 海量 数据 空间 模型 、 数 据 空间 的 组 织 与 分 类 、 数 据 空间 演化 、 数 据 空间 查询 优化 等 核心 技术 方面 取得 突破 。 在 此 研究 基础 上 开 
发 具有 自主 知识 产权 的 数据 空间 管理 原型 系统 。 基 于 此 我 们 提出 了 解决 “ 找 得 到 ”问题 的 任务 空间 模型 和 解决 “ 找 得 快 ”问题 的 
核心 数据 空间 方法 ， 初 步 开 发 了 原型 系统 “OrientSpace” 。 


一 年 即将 过 去 ， 在 继 过 去 两 年 有 关 实 验 室 科研 情况 的 年 度 报 告 的 基础 上 ， 再 次 整理 了 2008 年 的 年 度 报 告 ， 内 容 涉及 技术 展 
望 、 系 统 研 发 、 论 文 精 选 和 学 术 交 流 等 。 


2008 年 我 们 的 实验 室 新 开发 了 “中 文 文献 集成 系统 C-DBLP”， 值 得 推荐 一 下 。 该 系统 基于 实验 室 自 2000 年 开始 研究 Web 
数据 集成 的 相关 技术 ， 高 质量 地 集成 了 我 国 计 算 机 科学 领域 数 本 权威 期 刊 及 学 术 会 议 (数据 库 年 会 ) 自 1960 年 以 来 的 5 万 余 篇 文 
献 ， 涉 及 5 万 余 名 作者 。 该 系统 以 作者 为 中 心 展示 发 表 过 的 中 文 文献 ， 以 及 合作 作者 信息 ， 并 能 展示 文献 的 具体 信息 如 摘要 、 出 
处 、 作 者 单位 和 基金 资助 等 内 容 。 在 本 年 报 的 系统 开发 篇 有 关于 此 系统 的 详细 介绍 。 该 系统 未 来 将 开放 给 大 家 作为 试验 平台 ， 基 
于 该 平台 可 以 开展 相应 的 研究 工作 ， 和 希望 C-DBLP (http://www.cdblp.cn) 能 够 给 大 家 的 研究 带 来 便利 。 


这 些 工作 的 主体 来 自 实 验 室 的 研究 生 ， 研 究 生 的 培养 问题 一 直 是 实验 室 探究 的 根本 问题 。 中 科 院 理论 物理 研究 所 所 长 欧阳 钟 
灿 院 士 提 到 “在 研究 生 培 养 中 ， 我 们 不 仅 要 注重 国际 经 验 ， 也 要 注意 中 国 国情 ” ， 这 不 无 道理 。 过 去 几 年 我 们 建立 了 “Lab 
meeting+ Group meeting” 的 定期 讨论 会 制度 模式 ， 老 师 和 学 生 以 及 学 生 和 学 生 之 间 定 期 讨论 ， 不 断 激发 学 生 的 创新 意识 和 务 
实 的 态度 。 本 报告 的 很 多 内 容 即 来 自 周 六 讨论 会 (Lab meeting) 的 结果 。 


《摘自 《2008 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 | ”隐私 保护 研究 


去 年 我 们 花费 一 些 精力 总 结 整理 了 一 份 有 关 实 验 室 科研 情况 的 报告 一 一 “2006 年 度 报告 ”， 内 容 涉及 技术 展望 、 论 文 精 选 
和 学 术 交 流 等 。 发 出 之 后 ， 得 到 同行 关注 和 中 肯 的 评价 ， 认 为 是 做 了 一 件 有 益 的 事情 ， 感 到 十 分 欣慰 。 正 像 去 年 在 序 中 所 说 
的 ，“ 总 结 过 去 ， 展 望 未 来 ， 或 许 对 我 们 自己 、 对 他 人 、 对 社会 都 是 一 种 责任 ,一 种 鼓舞 ,一 种 鞭策 。” 所 以 在 2007 年 结束 之 
际 ， 我 们 又 编写 了 这 样 一 份 报告 ， 是 对 大 家 的 感谢 ， 也 是 完成 对 自己 的 承诺 。 


本 年 度 报 告 的 结构 仍 延续 去 年 的 风格 ， 报 告 第 一 部 分 汇集 了 我 们 实验 室 的 技术 综述 ， 展 示 我 们 对 数据 管理 技术 发 展 趋势 的 判 
断 和 把 握 。 数 据 库 服务 外 包 (outsource databases) 是 未 来 的 发 展 趋势 ， 与 之 相关 的 隐私 性 、 正 确 性 和 完整 性 的 问题 是 传统 数 


据 库 研究 所 涉及 不 到 的 问题 ， 成 为 目前 的 研究 热点 。 其 次 不 确定 性 数据 (uncertain data) 的 处 理 越 来 越 成 为 人 们 的 关注 对 象 ， 
这 主要 是 因为 在 Web 环 境 下 数据 的 不 确定 性 更 为 普遍 ， 使 得 这 一 问题 的 研究 日 益 迫 切 。 


(摘自 《2007 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 网 络 与 移动 数据 管理 研究 


当 2006 年 即将 过 去 的 时 候 ， 我 和 我 的 学 生 们 讲 ， 我 们 是 否 应 该 总 结 些 什么 ， 总 结 过 去 ， 展 望 未 来 ， 或 许 对 我 们 自己 、 对 他 
人 、 对 社会 都 是 一 种 责任 ， 一 种 鼓舞 ， 一 种 鞭策 。 经 过 近 一 个 月 的 努力 ， 我 们 终于 有 了 手头 的 这 部 集 子 ， 算 是 对 过 去 一 年 的 一 个 
交代 ， 也 是 对 未 来 一 年 的 一 个 期 盼 。 


过 去 五 六 年 间 ， 我 们 的 研究 工作 始终 围绕 数据 库 技 术 与 网 络 计算 和 移动 计算 环境 的 结合 。 因 此 实验 室 的 名 字 为 “网 络 与 移动 
数据 管理 ” (Web and Mobile Data Management，WAMDM) 。 实 验 室 的 研究 风格 秉承 萨 师 迷 、 王 珊 教 授 所 一 贯 倡 导 的 学 
术 研 究 与 系统 开发 并 重 的 传统 ， 以 创新 数据 管理 系统 的 研究 为 目标 。EMC 公 司 信息 安全 部 首席 科学 家 Burt Kaliski 博 士 来 实验 室 
访问 后 ， 认 为 我 们 的 研究 方法 是 一 种 保持 研究 不 脱离 实际 的 有 效 方法 ， 并 将 在 EMC 实 验 室 借鉴 同样 的 做 法 (| was particularly 
impressed by your approach of having two tracks-research and system-in order to ensure that the research is 


actually applied.We will be doing that as well at EMC Labs.) 


过 去 的 一 年 我 们 坚持 了 每 周 的 学 术 讨论 ， 力 求 捕捉 新 的 技术 发 展 脉络 ， 为 我 们 的 创新 研究 寻找 新 的 方向 。 本 年 度 报 告 的 第 一 
部 分 即 汇集 这 方面 的 一 些 报告 。 归 纳 起 来 我 们 认为 数据 库 技术 将 面临 变革 ， 其 中 心 或 许 是 我 们 第 一 篇 文章 所 说 的 “未 来 数据 管理 
技术 将 由 数据 库 管 理 到 数据 空间 管理 ， 由 服务 于 企业 计算 到 服务 于 个 人 计算 。 过 去 三 四 十 年 我 们 为 企业 创造 了 一 个 成 功 的 软件 ， 
未 来 十 年 我 们 将 为 社会 大 众 的 需要 创造 一 个 全 新 的 软件 ”。 与 之 相关 的 众多 技术 将 等 待 我 们 去 研究 ， 如 数据 空间 的 管理 、 网 络 数 
据 的 集成 、 场 合 感应 的 数据 管理 、 可 信和 数据 的 管理 、 基 于 Flash 的 DBMS 等 。 这 里 只 是 抛砖引玉 ， 希 望 能 够 带动 相关 的 研究 。 


本 年 度 报告 的 第 二 部 分 汇集 了 我 们 一 年 当中 所 发 表 的 一 些 论文 ， 分 为 Deep Web 数 据 集成 、Web 数 据 抽取 、XML 数 据 管 
理 、Ontology 数 据 管理 、 公 路 网 的 移动 对 象 管理 等 。 在 进行 以 上 学 术 研 究 的 同时 ， 我 们 着 力 开发 了 诸多 实验 系统 ， 得 到 了 企业 
界 关 注 。 如 基于 Deep Web 数 据 集成 技术 的 JobTong (工作 通 ) 、Native XML 数 据 库 系统 OrientX、 基 于 手机 数据 管理 的 
PhoneDB 等 ， 得 到 国内 外 同行 的 好 评 。 我 们 先后 与 联想 、 中 创 软件 和 华为 等 企业 建立 良好 的 合作 关系 ， 进 行 技术 转移 。 


实验 室 一 贯 重视 国际 学 术 的 交流 ， 我 们 先后 与 美国 |BM TJ Watson 研究 中 心 、 法 国 INRIA、 希 腊 NTU Athens 开 展 合 作 交 
流 ， 并 得 到 了 中 法 先进 技术 项 目 和 中 和 希 国际 科技 合作 项 目的 支持 。 


2006 年 11 月 19 日 至 22 日 ， 我 们 应 邀 参加 了 在 德国 举办 的 “Dagstuhl Seminar on XQuery Implementation 
Paradigms”。 所 有 参加 者 都 是 受 邀 参加 ， 且 在 本 领域 有 实 实在 在 的 系统 研究 。 会 议 主席 德国 慕尼黑 理工 大 学 的 Torsten Grust 
教授 在 发 来 的 邀请 中 特别 指出 “Your native XML database system OrientX is clearly recognized as a highly significant 
contribution in this research area and the seminar organizers are looking forward to your attendance” (你 们 的 
native XML 数 据 库 系统 OrientX 在 本 研究 领域 被 认为 具有 突出 的 贡献 ， 会 议 组 织 方 希望 你 能 参加 此 次 会 议 ) 。 参 加 完 此 次 会 议 使 
我 对 创新 研究 有 了 新 的 感悟 。 其 实 科 学 研究 也 有 上 游 和 下 游 之 分 ， 站 在 科研 下 游 谈 创新 是 比较 困难 的 。 要 创新 必须 首先 进入 占据 
科研 上 游 的 学 术 团体 ， 当 真正 成 为 科研 上 游 的 一 员 时 ， 其 实 不 创新 也 是 比较 困难 的 。 


(摘自 《2006 年 WAMDM 实 验 室 年 报 》 序 ) 


附录 K ”大 数据 管理 基石 : Web 数 气管 理 


Web 数 据 指 能 够 通过 Web 访 问 到 的 所 有 数据 。 基 于 Web 数 据 访问 形式 不 同 ，Web 又 分 为 浅 层 网 络 (surface Web) 和 深层 
网 络 (deep Web) 。 如 何 有 效 地 管理 Web 上 的 大 量 信 息 ， 以 满足 用 户 不 断 增长 的 对 高 质量 信息 的 需求 ， 成 为 学 术 界 和 产业 界 
共同 关注 并 致力 于 解决 的 问题 。Web 数 据 所 呈现 的 特征 为 : 海量 异 构 ; 分 布 广泛 ; 动态 增长 ; 先 有 数据 ， 后 有 模式 。 这 使 得 
Web 数 据 无 论 从 数量 上 还 是 复杂 程度 上 ， 都 与 传统 数据 库 技术 所 处 理 的 数据 显著 不 同 ， 需 要 有 更 先进 的 技术 来 管理 Web 数 据 。 


Web 数 据 管理 的 主要 目的 是 解决 Web 上 丰富 信息 资源 有 效 利用 的 问题 ， 从 而 大 大 提高 Web 应 用 的 开发 效率 。Web 数 据 管理 
是 指针 对 特定 的 主题 领域 ， 利 用 数据 抽取 和 数据 集成 技术 ， 自 动 识别 Web 中 与 所 给 主题 相关 的 实体 及 实体 之 间 的 关联 ， 构 造 面 
向 主题 的 结构 化 关联 数据 ， 并 对 这 些 数据 进行 有 效 处 理 (包括 数据 质量 、 动 态 演化 、 隐 私 保护 等 ) ， 从 而 为 用 户 提供 高 质量 的 信 
息 服 务 。 


传统 的 数据 库 技术 为 传统 应 用 系统 的 开发 提供 了 有 利 的 支撑 ,缩短 了 应 用 开发 周期 ， 简 化 了 系统 维护 成 本 。Web 数 据 管理 
技术 与 传统 的 数据 库 技术 一 脉 相 承 ， 其 大 大 降低 了 Web 应 用 系统 开发 的 难度 ， 同 样 缩短 了 应 用 开发 周期 ， 简 化 了 系统 维护 的 代 
价 。 诸 如 学 术 集成 系统 、 网 络 擂 情 系统 、 价 格 比 对 系统 、 工 作 查 找 系统 等 应 用 ， 利 用 Web 数 据 管 理 系统 可 以 方便 快捷 地 加 以 开 
发 ， 并 实现 日 常 的 自动 增 量 维护 。 


当下 大 数据 浪潮 一 浪 高 过 一 浪 ， 大 数据 所 体现 的 数据 量 大 (Volume) 、 数 据 多 样 性 (Variety) 、 实 时 性 强 (Velocity) 、 
价值 大 (Value) 以 及 真实 性 (Veracity) 的 特征 与 Web 数 据 的 特征 几 多 相似 。 因 此 本 书 所 提出 的 Web 数 据 管理 技术 与 方法 ， 本 
质 上 提供 了 将 多 源 异 构 非 结构 化 数据 加 以 结构 化 管理 的 途径 ， 进 而 为 解决 大 数据 管理 问题 提供 了 有 益 的 尝试 。 


本 书 作 者 自 2000 年 即 对 Web 数 据 管理 开始 连续 多 年 的 系统 性 研究 。 本 书 基于 作者 多 年 在 Web 数 据 管理 方面 的 研究 积累 ， 全 
面 系统 地 介绍 了 Web 数 据 管理 相关 技术 。 内 容 涵盖 了 Web 数 据 抽取 (包括 抽取 方法 、 包 装 器 生成 与 维护 、 实 体 识别 等 ) ; Web 
数据 集成 (包括 接口 集成 、 模 式 匹 配 、 碍 询 转换 、 数 据 库 采 样 、 数 据 库 大 小 估计 、 系 统 实现 等 ) ; 数据 空间 (包括 数据 空间 模 
型 、 索 引 、 查 询 、 系 统 实现 等 ) ;以 及 新 技术 进展 (包括 Web 信 息 可 信 性 、 移 动 Web 搜 索 、 移 动 应 用 集成 、 大 规模 知识 库 构 
建 、 社 交 媒体 等 ) 。 


《Principle of Data Integration》 (Anhai Doan，Alon Halevy, Zachary lves，2012，MK) 是 与 本 书 内 容 最 相近 的 书 
籍 。 该 书 是 有 关 数 据 集成 技术 的 集大成 之 作 ， 其 中 译本 亦 由 我 们 实验 室 翻 译 ， 近 期 将 由 机 械 工业 出 版 社 出 版 。 数 据 集成 技术 已 有 
20 多 年 的 研究 ， 大 致 可 分 为 两 个 阶段 : 起 初 主要 关注 企业 内 部 异 构 数据 库 范畴 下 的 数据 集成 ， 随 着 Web 的 出 现 ， 随 后 开始 关注 
动态 海量 的 Web 数 据 源 范畴 下 的 数据 集成 。 两 者 的 侧重 点 有 所 不 同 ， 技 术 和 方法 也 有 所 差异 。Alon Halevy 的 研究 背景 涉及 了 这 
两 个 阶段 ， 因 此 该 书 试图 将 这 两 个 阶段 的 研究 成 果 共 性 技术 同时 呈现 在 读者 面前 。 该 书 是 以 教科 书 的 逻辑 整理 有 关内 容 ， 强 调 知 
识 的 基础 性 和 理论 性 。 其 第 一 部 分 主要 介绍 数据 集成 的 基本 知识 ， 主 体 基本 来 自 数据 库 集成 的 内 容 ， 如 查询 的 表示 、 数 据 源 的 描 
述 (GAV、LAV) 、 模 式 匹 配 、 查 询 处 理 和 集成 方法 等 ;穿插 补充 了 Web 数 据 集成 的 内 容 ， 如 包装 器 、 数 据 匹配 (实体 识别 ) 
等 。 第 二 部 分 主要 介绍 数据 集成 的 扩展 知识 ， 主 要 包括 XML、 语 义 Web、 不 确定 性 、 数 据 溯源 等 。 第 三 部 分 介绍 各 种 新 的 集成 
技术 ,包括 Web 数 据 集成 、 基 于 关键 字 的 按 需 集成 、 对 等 集成 和 协同 集成 等 。 


本 书 直接 以 Web 数 据 为 研究 对 象 ， 系 统 地 介绍 了 Web 数 据 管理 的 关键 技术 ， 早 期 的 数据 库 集成 技术 并 未 涉及 ， 这 是 
《Principle of Data Integration》 一 书 的 优势 。 但 在 Web 学 畴 下 的 数据 集成 ， 本 书 的 体系 更 为 系统 、 具 体 、 丰 富 和 完整 ， 并 有 
系统 实现 的 内 容 ， 前 者 直接 与 本 书 相关 的 章节 有 第 9 章 “包装 器 ”、 第 8 章 “数据 匹配 ” (对 应 本 书 的 第 一 部 分 数据 抽取 ) 、 第 
15 章 “Web 数 据 集成 ” (对 应 本 书 第 二 部 分 数据 集成 ) 。 后 者 显然 具有 侧重 基础 知识 上 的 优势 ， 而 本 书 具 有 侧重 Web 数 据 管理 
的 系统 化 优势 。 两 者 可 以 说 相互 补充 ， 相 得 益 彰 。 当 然后 者 在 知识 体系 上 的 厚度 和 广度 是 本 书 所 不 能 比拟 的 。 


《Advanced Metasearch Engine Technology》 (Weiyi Meng, Clement YU，Morgan&Claypool 
Publishers，December2010) 和 《Deep Web Query Interface Understanding and Integration》 (Eduard 
Dragut，Weiyi Meng，Clement Yu，Morgan&Claypool Publishers，2012) 是 有 关 Web 数 气管 理 的 两 本 专著 ， 其 作者 是 这 
个 领域 的 资深 学 者 ， 特 别 在 元 搜索 引擎 方面 颇 有 研究 。 


《Web Data Mining: Exploring Hyperlinks, Contents and Usage Data》 (Bing Liu, Second 
Edition，July2011First Edition，Dec2006，Springer) 一 书 是 近期 与 Web 数 据 相 关 的 比较 优秀 的 一 部 专著 ， 书 中 的 内 容 主要 
侧重 数据 挖掘 的 基本 知识 和 Web 数 据 挖 气 。 书 中 部 分 内 容 与 本 书 相关 ， 如 Web 爬 取 、Web 搜 索 、 结 构 化 数据 抽取 、 信 息 集 成 
等 。 总 之 该 书 还 是 定位 在 数据 库 挖掘 领域 。 


在 作者 的 书架 上 还 有 几 部 早期 的 与 Web 数 据 相关 的 书籍 ， 但 与 本 书 讨论 的 内 容 均 关 系 不 大 。 比 如 《Data on the Web: 
From Relations to Semistructured Data and XML》 (Serge Abiteboul, Peter Buneman，Dan Suciu，2000，MK) ， 该 
书 当年 因 其 书 名 吸引 了 很 多 人 ， 但 从 副标题 可 以 看 出 其 讨论 的 主要 问题 是 半 结 构 化 数据 模型 和 XML。 该 书 作者 Serge Abiteboul 
与 上 一 本 书 的 Alon Halevy 其 实 都 是 属于 斯 坦 福 流派 ，20 世 纪 90 年 代 斯 坦 福 学 者 做 了 大 量 的 异 构 数据 库 集成 技术 的 理论 和 系统 研 
究 工 作 ， 该 书 是 其 研究 工作 在 半 结 构 化 数据 上 的 扩展 ， 其 实 与 本 书 所 讨论 的 内 容 基本 没有 交叉 。《Web Data Management》 

(Sourav S.Bhowmick, Sanjay K.Madria，Wee Keong Ng，2003，Springer) ， 书 名 昌 与 本 书 相同 ， 但 内 容 差 异 很 大 。 作 
者 从 数据 库 的 角度 对 Web 信 息 的 有 效 管理 提出 了 基于 数据 仓库 的 方法 ， 试 图 用 对 象 模型 对 Web 数 据 建 模 。 此 类 工作 在 2000 年 前 
后 提出 了 很 多 ， 如 W3QL、WebsQL、WebOQL 等 ， 都 试图 用 数据 库 建 模 的 思想 组 织 Web 数 据 并 提供 类 似 SQL 的 查询 语言 。 
实 这 里 的 本 质问 题 是 : 把 Web 数 据 看 成 结构 化 来 处 理 是 一 回 事 ， 如 何 把 Web 数 据 变 成 可 处 理 的 结构 化 数据 甚至 知识 库 (如 知识 
图 谱 ) 是 另外 一 回 事 。 后 来 此 类 工作 因 没 有 能 够 针对 Web 数 据 的 特殊 处 理 要 求 ， 渐 渐 淡出 了 人 们 的 视野 。 相 反 本 书 介绍 的 Web 
数据 抽取 、 实 体 识别 、 接 口 集成 等 研究 成 为 这 方面 的 主流 技术 ， 更 能 解决 Web 数 据 处 理 的 实际 需要 ， 日 渐 为 人 们 重视 。 


(摘自 《Web 数 据 管 理 : 概念 与 技术 》 前 言 ， 该 书 由 清华 出 版 社 出 版 ) 


附录 L 大 数据 管理 基石 : 数据 集成 


近 20 年 里 ,数据 产生 的 方式 不 断 得 到 扩展 ， 带 来 数据 管理 需求 和 任务 的 不 断 变 化 ， 促 使 数据 管理 技术 不 断 推陈出新 。 数 据 
库 管 理 系统 、 数 据 仓库 与 数据 挖掘 、 数 据 集成 被 视 为 三 足 昂 立 的 现代 数据 管理 技术 ， 三 者 在 构建 信息 系统 中 的 作用 相当 、 互 为 依 
人 存 、 缺 一 不 可 。 但 在 人 们 的 认 知 度 上 ， 数 据 集成 技术 远 不 及 前 两 者 ， 其 主要 原因 或 许 在 于 缺乏 像 数据 库 系 统 、 数 据 挖掘 广为人知 
的 专业 教材 ， 使 得 该 技术 虽 “ 叫 好 ( 广 为 应 用 ) ”“， 但 “不 叫座 (缺乏 教学 传播 ) ”。 大 学 鲜 有 开设 此 类 课程 ， 其 知识 的 积累 多 
散 见 论文 、 系 统 。 本 书 可 以 说 一 举 改变 了 数据 集成 没有 专业 教材 的 困 局 。 尤 其 在 当今 大 数据 背景 下 ， 其 作用 尤为 突出 。 


该 书 是 有 关 数 据 集成 技术 的 集大成 之 作 。 数 据 集成 简单 地 说 是 指 为 多 个 数据 源 提供 统一 访问 的 技术 。 数 据 集成 技术 已 有 20 
多 年 的 研究 历史 ， 大 致 可 分 为 两 个 阶段 : 起 初 在 数据 库 应 用 发 展 到 一 定 阶段 ， 积 累 了 大 量 封 闭 、 完 备 的 异 构 数据 库 ， 形 成 了 企业 
异 构 数据 库 范畴 下 的 数据 集成 ， 其 次 ， 随 着 Web 的 出 现 ， 积 景 了 大 量 开 放 、 多 源 异 构 的 数据 源 (一 部 分 是 DBMS 支 持 的 数据 
源 ， 大 量 的 是 缺乏 结构 、 不 确定 的 数据 源 ) ， 送 形成 了 Web 多 源 异 构 数据 源 范畴 下 的 数据 集成 。 两 者 的 侧重 点 有 所 不 同 ， 技 术 
和 方法 也 有 所 差异 ， 前 者 是 基于 封闭 世界 假设 ， 后 者 则 是 基于 开放 世界 假设 ， 难 度 也 大 大 增加 。Alon Halevy 等 几 位 作者 的 研究 
背景 涉及 了 这 两 个 阶段 ， 因 此 该 书 试 图 将 这 两 个 阶段 研究 成 果 的 共性 技术 同时 呈现 在 读者 面前 。 该 书 是 以 教科 书 的 逻辑 整理 有 关 
内 容 ， 强 调 知识 的 基础 性 和 理论 性 。 其 第 一 部 分 主要 介绍 数据 集成 的 基本 知识 ， 主 体 基本 来 自 数据 库 集 成 的 内 容 ， 如 查询 的 表 
示 、 数 据 源 的 描述 、 模 式 匹 配 、 查 询 处 理 、 集 成 方法 等 ; 穿插 补充 了 Web 数 据 集成 的 内 容 ， 如 包装 器 、 数 据 匹 配 (实体 识别 ) 
等 。 第 二 部 分 主要 介绍 扩展 数据 集成 的 知识 ， 主 要 包括 XML、 语 义 Web、 不 确定 性 、 数 据 溯源 等 。 第 三 部 分 介绍 各 种 新 的 集成 


技术 ， 包 括 Web 数 据 集成 、 基 于 关键 字 的 按 需 集成 、 对 等 集成 、 协 同 集成 等 。 


(摘自 《数据 集成 原理 》 序 ， 该 书 由 机 械 工 业 出 版 社 出 版 ) 


附录 M ”从 数据 库 大 师 看 数据 库 发 展 


数据 库 技术 从 20 世 纪 60 年 代 中 期 产生 到 今天 经 历 了 四 十 多 年 的 历史 ， 从 层次 网 状 数据 库 、 关 系数 据 库 、 对 象 数据 库 、 对 象 - 
关系 数据 库 、XML 数 据 库 ， 到 | 数据 挖掘、 数据 集成 、Web 数 据 管 理 等 ， 造 就 了 以 C.W.Bachman、E.F.Codd 和 Jim Gray 为 代表 
的 图 灵 奖 得 主 ;发展 了 以 DBMS 技 术 为 核心 的 数据 管理 方法 ， 使 数据 管理 发 生 了 革命 性 的 变革 。 这 里 凝聚 的 是 数据 库 大 师 们 留 下 
的 智慧 结晶 和 经 典 研究 。 特 别 值得 一 提 的 是 ，2015 年 Michael Stonebraker 以 其 杰出 的 数据 库 创新 系统 成 就 荣获 2014 年 图 灵 
奖 ， 并 应 邀 来 到 中 国 在 中 国 计 算 机 大 会 上 分 享 其 成 功 的 经 验 。 


ACM SIGMOD Record 从 2001 年 开始 ， 开 辟 了 一 个 有 趣 的 栏目 一 一 数据 库 领 域 杰 出 人 物 访谈 (Database Distinguished 
Profile) ， 每 期 采访 一 两 位 在 数据 库 领 域 发 展 历史 上 有 卓越 贡献 的 大 师 ， 至 今 已 有 几 十 位 之 多 。 起 初 我 看 到 这 样 的 访谈 很 受 启 
发 ， 便 将 之 作为 入 门 读物 推荐 给 我 的 博士 生 阅 读 ， 其 用 意 是 让 他 们 感受 这 些 大 师 的 所 思 、 所 想 、 所 为 ， 启 迪 他 们 的 人 生理 想 和 智 
茵 ， 颇 有 收益 。 在 一 遍 遍 品味 中 ， 大 师 们 身上 所 体现 的 科研 态度 、 创 新 意识 和 社会 责任 , 今天 看 来 依然 很 有 价值 ， 发 人 深 省 。 作 
为 一 个 多 年 从 事 数 据 库 研究 的 学 者 ， 直 觉 告诉 我 应 该 把 这 些 访 谈 译 成 中 文 ， 或 许 对 我 们 自己 、 对 他 人 、 对 社会 都 是 有 益 的 。 经 过 
近 两 年 的 努力 ， 我 们 选择 其 中 有 代表 性 的 18 篇 访谈 译 成 中 文 并 汇集 成 册 。 


这 18 篇 访谈 所 涉及 的 18 位 人 物 的 卓越 经 历 ， 勾 绘 出 了 数据 库 领 域 初 创 时 期 的 一 部 宏伟 的 历史 画卷 。 从 一 无 所 知 开始 ， 仪 凭 
一 支 铅笔 、 一 台电 脑 以 及 坚定 的 信念 ， 就 此 开创 出 丰功伟绩 ， 并 改变 着 世界 。 从 这 18 位 人 物 身 上 ， 我 看 到 了 如 下 具有 丰富 色彩 
的 经 典 画 面 。 


理论 研究 和 系统 实现 相 行 不 悖 : 数据 库 技术 能 取得 今天 的 地 位 和 成 就 ， 得 益 于 此 。 这 个 领域 的 初创 者 们 多 是 理论 研究 出 身 ， 
但 他 们 坑 然 而 然 地 投身 到 系统 开发 之 中 ， 使 得 这 门 技术 得 以 摆脱 空中 楼 阁 、 画 饼 充 饥 的 窘境 。 吉 姆 格雷 、 迈 克 尔 -斯 通 布雷 克 博 
士 毕 业 便 直接 投身 系统 开发 ， 但 同时 又 做 出 很 好 的 理论 工作 ; 杰 弗 里 : 乌 尔 曼 、 戴 维 . 迈 尔 、 格 哈 德 . 威 肯 、 瑟 格 . 阿 比特 博 、 杰 弗 里 
诺顿 等 理论 出 身 的 大 家 ， 敢 于 坑 然 否定 自我 回归 系统 ; 拉 上 古 . 罗 摩 克 里 希 干脆 就 是 工业 界 和 学 术 界 的 两 栖 者 。 读 着 这 些 人 物 访 
谈 ， 你 会 感受 到 这 样 的 景象 ， 一 群 才 华 横 溢 的 学 者 频繁 穿梭 于 学 术 界 和 工业 界 ， 时 而 奋 笔 疾 书 铸就 理论 华章 ， 时 而 埋头 若干 奉献 
系统 经 典 。 此 种 场面 当下 已 不 多 见 。 


人 才 培 养 和 学 术 环 境 奉 为 要 旨 : 正如 韩 家 炜 所 言 “培养 出 色 的 学 生 是 最 有 意义 的 事情 ”成 为 这 批 学 者 的 共同 心愿 ， 而 他 们 培 
养 学 生 的 法 宝 在 于 提出 创新 性 的 研究 课题 带领 学 生 们 攻坚 克 难 。 珍 妮 弗 : 威 多 姆 对 学 生 写作 技巧 和 报告 技能 的 培养 ， 黄 奎 勇 每 周 
六 深夜 凌晨 的 博士 讨论 班 ; 帕 特 ` 塞 林 格 如 何 使 刚 毕业 的 博士 尽快 成 长 等 等 令 人 难忘 。 同 时 大 师 们 对 当下 的 学 术 环 境 建 言 献策 ， 
为 青年 学 者 的 成 长 出 谋划 策 。 他 们 谈 到 了 高 校 终 身 教 职 的 异化 ， 学 术 会 议论 文 评审 的 扭曲 ， 对 “只 做 改进 性 工作 ， 而 不 致力 于 研 
究 突破 性 问题 ”的 焦虑 ， 实 在 值得 我 们 深思 。 


三 大 重镇 与 良性 竞争 成 为 美谈 : 18 位 大 师 大 致 来 自 三 所 高 校 ， 成 就 了 数据 库 领域 的 三 大 重镇 : 斯 坦 福 ( 杰 弗 里 : 乌 尔 曼 、 吉 
奥 . 威 德 厚 德 、 赫 克 托 .加 西亚 ` 莫 利 纳 、 瑟 格 阿 比特 博 、 珍 妮 弗 . 威 多 姆 、 黄 奎 勇 ) 、 威 斯 康 星 ( 戴 维 . 德 维特 、 杰 弗 里 .诺顿 、 拉 古 
罗 摩 克 里 希 、 韩 家 炜 ) 、 加 州 伯克利 (迈克尔 - 斯 通 布 雷 克 、 吉 姆 格雷、 迈克 尔 :富兰克林 ) ， 这 成 为 当时 数据 库 领 域 的 盛 景 ， 各 
成 一 派 。 斯 坦 福 流 派 以 理论 见长 ， 加 州 伯克利 和 威斯康星 以 系统 取胜 ， 尤 其 是 斯 坦 福 和 威斯康星 在 那个 年 代 经 常 调侃 彼此， 隔 空 
喊话 ， 良 性 竞争 ， 亦 成 美谈 。 


学 术 休假 和 多 彩 人 生 铸 就 成 功 : 从 这 些 大 师 身 上 我 深 深 感 党 到 学 术 研究 不 是 苦行 僧 ， 大 的 智慧 多 来 自 与 自然 的 接触 、 来 自在 
文学 艺术 的 征 笠 之 中 ， 学 术 休 假 成 为 学 术 研究 的 加 油 站 。 这 里 有 很 多 画面 经 常 在 我 脑 中 浮现 ， 挥 之 不 去 ， 而 且 我 分 明 感 到 那 就 是 
他 们 成 就 事业 的 灵感 之 源 。 吉 姆 -格雷 的 扬帆 远 行 ; 格 哈 德 : 威 肯 的 沙漠 独行 ;珍妮 弗 : 威 多 姆 的 悠扬 小 号 和 环球 家 庭 旅行 ， 瑟 格 : 阿 
比特 博 出 版 小 说 、 喜 欢 雕 塑 ， 戴 维 . 迈 尔 几乎 探访 遍 了 巴黎 所 有 博物 馆 等 等 。 这 些 人 还 有 一 个 共同 点 就 是 顾家 ， 他 们 完美 地 处 理 
好 了 工作 、 生 活 和 社会 责任 。 


社会 责任 和 淡泊 名 利 堪 称 楷模 : 这 些 大 师 多 是 美国 科学 院 、 工 程 院 院 士 , ACM、1EEE 双 料 会 士 ， 在 功成名就 后 勇于 承担 社 
会 责任 ,为 促进 本 领域 友 展 尽职 尽责 。 吉 姆 .格雷 担任 美国 总 统 信息 技术 顾问 委员 会 (PITAC) 顾问 ， 吉 奥 : 威 德 厚 德 担任 研究 基 
金 的 项 目 主 管 ， 戴 维 - 德 维特 担任 NSF CISE 顾 问 ， 黄 奎 勇 担 任 韩国 信息 科学 学 会 会 长 等 ， 他 们 真正 站 在 前 沿 以 独立 的 视角 没有 本 
位 不 带 功 利 地 代表 所 属 领 域 的 同仁 为 国 献策 ， 为 学 科 发 展 竭尽 全 力 鼓 与 呼 ， 而 国内 远 望 去 只 见 钱学森 那 一 代 人 留 下 的 一 抹 背 影 。 


这 些 大 师 多 来 自 世 界 各 地 ， 在 美学 成 后 有 些 回 归 故 里 ， 致 力 振兴 本 国 的 科研 。 瑟 格 . 阿 比特 博 谈 到 在 法 国 组 建 研 究 团队 的 经 
历 ; 格 哈 德 ; 威 衣 介绍 在 德国 组 织 庞大 的 研究 团队 的 得 失 ; 西 : 莫 汉 介 绍 了 印度 计算 机 科学 发 展 状况 ; 赫 克 托 . 加 西亚 ` 莫 利 纳 谈 到 墨 
西 哥 的 研究 现状 ; 黄 奎 勇 提 到 在 韩国 提升 学 术 研 究 和 促进 学 会 工作 的 举措 ; 克 里 斯 托 法 拉 特 谈 到 众多 希腊 人 从 事 数 据 库 研 究 的 
情况 ; 韩 家 炜 谈 到 出 国 留学 和 对 中 国 寄 予 的 厚望 。 


还 有 很 多 耐 人 深思 的 画面 高 于 其 中 ， 有 待 读者 们 去 体会 ， 去 挖 扎 。 通 过 这 次 推出 的 中 文 版 ,我们 希望 大 师 们 的 智慧 能 够 启迪 
国内 数据 库 研 究 者 前 进 的 方向 ， 指 导 我 们 做 好 理论 研究 ， 开 发 出 创新 系统 。 我 们 也 希望 将 大 师 们 的 创新 意识 、 灵 感 、 科 研 经 验 及 
处 事 之 道 作 为 智慧 的 种 子 ， 播 撒 到 今日 中 国 众 多 朝气 鞍 勃 的 数据 库 学 子 心中 。 


受 此 访谈 的 启发 ， 我 也 曾 在 三 年 前 在 《中 国 计 算 机 学 会 通讯 》 的 动态 栏目 编写 组 织 编 写 了 人 物 访谈 系列 文章 ， 先 后 介绍 了 张 
效 祥 、 夏 培 肃 、 杨 关 清 、 徐 家 福 、 姚 期 智 、 华 云 生 、 李 凯 、 赵 伟 、 张 晓 东 等 一 批 国内 外 中 国学 者 ， 话 题 涵盖 了 我 国 计 算 机 事业 的 
诞生 、 中 美 科研 机 制 的 优 务 、 人 才 培 养 、 学 术 研 究 等 ， 且 图 文 并 茂 ， 也 是 一 份 不 错 的 读物 ， 或 许可 以 与 本 书 的 访谈 互 为 补充 ， 相 


J 日 半 立 少 
体 全 日 5。 


全 书包 括 十 八 篇 访谈 。 初 稿 包括 十 五 篇 ， 于 2012 年 初 译 供 内 部 使 用 ，2013 年 哈尔滨 数据 库 年 会 上 曾 发 送 过 少量 征求 意见 
稿 。 在 此 基础 上 ， 经 过 反复 的 修订 ， 并 增补 三 篇 译 稿 ， 成 此 书 正式 出 版 以 绘 读 者。 在 此 特别 感谢 华章 公司 姚 蕾 编辑 为 此 书 出 版 付 
出 的 努力 。 由 于 本 书 涉及 面 广 ， 译 者 水 平 有 限 ， 译 文中 的 不 当 之 处 在 所 难免 ， 敬 请 原谅 ， 希 望 读 者 朋友 们 不 音 赐教 ， 我 们 将 不 胜 


(摘自 《数据 库 大 师 访 谈 录 》 序 言 ) 


